📚 Саммари научных статей из arXiv

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Zero-Residual Concept Erasure via Progressive Alignment in Text-to-Image Model

2025-08-09

Авторы:

Hongxu Chen, Zhen Wang, Taoran Mei, Lin Li, Bowei Zhu, Runshi Li, Long Chen

**Резюме** В статье предлагается метод **ErasePro** для решения проблемы **Concept Erasure** в моделях текст-к-изображению. Задача Concept Erasure заключается в том, чтобы предотвратить модель от генерации контента, связанного с нежелательными семантическими понятиями (target concepts). Основные ограничения существующих методов заключаются в том, что они могут оставлять в мешанине неполностью удаленные понятия (недостаточная гармонизация) и приводят к потере качества генерации, сконцентрировав параметрические изменения в небольших глубинных слоях модели. **ErasePro** предлагает решение этих проблем с помощью **строгого нулевого-резидуального ограничения** в оптимизационной задаче, обеспечивая полное удаление нежелательных понятий, и **прогрессивной стратегией обновления**, где изменения параметров происходят слой за слоем, начиная от глубинных до слоев более высокого уровня. Это позволяет снизить влияние на качество генерации и улучшить точность удаления. Эмпирические исследования подтвердили, что ErasePro эффективно решает задачу concept erasure во всех тестах (instance, art style и nudity erasure). Результаты показывают, что этот подход является более точным и сохраняет более высокое качество генерации.

Annotation:

Concept Erasure, which aims to prevent pretrained text-to-image models from generating content associated with semantic-harmful concepts (i.e., target concepts), is getting increased attention. State-of-the-art methods formulate this task as an optimization problem: they align all target concepts with semantic-harmless anchor concepts, and apply closed-form solutions to update the model accordingly. While these closed-form methods are efficient, we argue that existing methods have two overlooked...

ID: 2508.04472v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Metric Learning in an RKHS

2025-08-09

Авторы:

Gokcan Tatli, Yi Chen, Blake Mason, Robert Nowak, Ramya Korlakai Vinayak

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Метрическое обучение (metric learning) является ключевым инструментом в области обработки данных и машинного обучения, где цель заключается в построении метрики, которая точно отражает сходство или различия между объектами. Этот подход имеет широкое применение в задачах, таких как извлечение образов, рекомендательные системы и когнитивная психология. Одной из популярных форм метрического обучения является обучение на основе триплетных сравнений (triplet comparisons), где пользователь указывает, какой из двух объектов (например, $h$ и $i$) более похож на третий объект ($j$). Такие сравнения позволяют определять степень сходства и различия между объектами. В последнее время, нелинейные методы метрического обучения, основанные на ядровых методах (kernel methods) и нейронных сетях, показали высокую эффективность на практике. Однако, несмотря на их успех, теоретическое понимание таких методов остается ограниченным. Большинство исследований фокусируются на линейных методах, где метрическое обучение производится в евклидовом пространстве $\mathbb{R}^d$, для которого существует хорошо изученная теория. Однако, в более общем случае, когда метрика изучается в пространстве репродуцирующих ядер (RKHS), теоретические гарантии и понимание остаются недостаточными. Цель этой работы заключается в разработке общего фреймворка для метрического обучения в RKHS, который бы обеспечил теоретические гарантии и оценки сложности выборки (sample complexity bounds). Это позволит лучше понять, как нелинейные методы работают в более сложных пространствах, и как они могут быть применены к реальным данным. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы разработали общий фреймворк для метрического обучения в пространстве RKHS, основанный на теории ядерных методов. Основная идея заключается в том, чтобы построить метрику, которая бы оптимизировалась на основе триплетных сравнений в пространстве RKHS. Для этого используется функционал, который выражает сходство между объектами через ядра, и оптимизируется с помощью алгоритмов, специально разработанных для этого контекста. В рамках данного метода, авторы используют нелинейные преобразования, предоставляемые пространством RKHS, что позволяет более точно отражать сложные зависимости между объектами. Алгоритм оптимизации основан на методах градиентного спуска, адаптированных для RKHS. Кроме того, авторы представляют новые теоретические результаты, включая гарантии обобщения (generalization guarantees) и оценки сложности выборки, которые позволяют оценить качество полученной метрики на новых данных. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для проверки эффективности предложенного метода, авторы провели ряд экспериментов. Они использовали как синтетические, так и реальные данные. На синтетических данных, они исследовали, как метрика, построенная в RKHS, отражает различные типы сходства и различий между объектами. Результаты показали, что метод эффективно оптимизирует метрику и обеспечивает хорошую обобщающую способность. На реальных данных, таких как наборы изображений и данные из рекомендательных систем, метод также показал хорошие результаты. Он сравнивался с предыдущими методами, и было показано, что предлагаемый подход обеспечивает более высокую точность и качество построенной метрики. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкое применение в различных областях, где важно точно определять сходство между объектами. Например, в задачах извлечения образов, этот подход может помочь в поиске похожих изображений на основе пользовательских предпочтений. В рекомендательных системах, он может улучшить качество рекомендаций, основываясь на более точном понимании предпочтений пользователя. Кроме того, этот метод может быть применен в областях, где нелинейные зависимости между объектами важны, таких как в когнитивной психологии, где необходимо моделировать сложные взаимодействия между различными концептами. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе был разработан новый фреймворк для метрического обучения в пространстве RKHS, который обеспечивает теоретические гарантии и оценки сложности выборки. Этот подход показал высокую эффективность на синтетических и реальных данных. В будущем, авторы планируют расширить этот метод для более сложных задач, включая обработку текстовых данных и многомодальных данных, а также исследовать влияние различных типов ядер на качество полученной метрики.

Annotation:

Metric learning from a set of triplet comparisons in the form of "Do you think item h is more similar to item i or item j?", indicating similarity and differences between items, plays a key role in various applications including image retrieval, recommendation systems, and cognitive psychology. The goal is to learn a metric in the RKHS that reflects the comparisons. Nonlinear metric learning using kernel methods and neural networks have shown great empirical promise. While previous works have ad...

ID: 2508.04476v1 stat.ML, cs.AI, cs.LG

arXiv PDF

📄 OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use

2025-08-09

Авторы:

Xueyu Hu, Tao Xiong, Biao Yi, Zishu Wei, Ruixuan Xiao, Yurun Chen, Jiasheng Ye, Meiling Tao, Xiangxin Zhou, Ziyu Zhao, Yuhuai Li, Shengze Xu, Shenzhi Wang, Xinchen Xu, Shuofei Qiao, Zhaokai Wang, Kun Kuang, Tieyong Zeng, Liang Wang, Jiwei Li, Yuchen Eleanor Jiang, Wangchunshu Zhou, Guoyin Wang, Keting Yin, Zhou Zhao, Hongxia Yang, Fan Wu, Shengyu Zhang, Fei Wu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современное развитие искусственного интеллекта приблизило человечество к реализации мечты о создании универсальных цифровых ассистентов, подобных J.A.R.V.I.S из киновселенной Marvel. Традиционные подходы к автоматизации задач ограничивались узкоспециализированными решениями, способными выполнять лишь предопределенный набор операций в строго контролируемых средах. Однако появление мультимодальных больших языковых моделей ((M)LLM) открыло принципиально новые возможности для создания агентов, способных взаимодействовать с вычислительными устройствами через стандартные интерфейсы пользователя, такие как графические интерфейсы (GUI). Ключевая проблема заключается в том, что современные операционные системы и приложения разработаны для человеческого взаимодействия, а не для машинной автоматизации. Это создает ряд фундаментальных вызовов: необходимость понимания визуального контента экрана, интерпретации семантики элементов интерфейса, планирования сложных многошаговых задач и адаптации к изменениям в интерфейсах различных приложений. Существующие решения либо требуют специализированного программирования под каждое приложение, либо обладают ограниченной обобщающей способностью. Особенно остро стоит проблема "grounding" - способности агента связать высокоуровневые инструкции на естественном языке с конкретными действиями в интерфейсе. Например, команда "отправь отчет менеджеру по электронной почте" требует понимания, где находится приложение почты, как прикрепить файл, как выбрать нужного получателя и множества других контекстно-зависимых действий. Эта проблема усугубляется разнообразием операционных систем, версий приложений и индивидуальных настроек пользователей. ## ПРЕДЛОЖЕННЫЙ МЕТОД Статья предлагает комплексную системную методологию создания OS Agents - агентов, способных автономно управлять вычислительными устройствами через стандартные интерфейсы операционных систем. Методология базируется на трех фундаментальных компонентах: среда наблюдения, пространство действий и архитектура агента. Среда наблюдения представлена как мультимодальное пространство, включающее визуальную информацию экрана (screenshots), структурное представление интерфейса (accessibility tree), текстовый контент и историю взаимодействий. Для обработки этой информации используются специализированные MLLM, обученные на синтетических и реальных датасетах, содержащих пары "screenshot-описание-действие". Пространство действий охватывает все возможные способы взаимодействия с GUI: клики мышью, клавиатурный ввод, прокрутка, перетаскивание, а также системные действия (запуск приложений, переключение между окнами). Для обеспечения надежности действий используется двухуровневая система: высокоуровневое планирование генерирует последовательность абстрактных действий, которые затем конкретизируются на уровне grounding в конкретные координаты и типы взаимодействий. Архитектура агента включает четыре ключевых модуля: модуль понимания (переводит наблюдения в семантическое представление), модуль планирования (разбивает высокоуровневые задачи на последовательность действий), модуль grounding (сопоставляет действия с конкретными элементами интерфейса) и модуль исполнения (выполняет действия и контролирует их результат). Для эффективного обучения используется комбинация обучения с подкреплением, имитационного обучения и самостоятельного улучшения через взаимодействие со средой. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Оценка эффектiveness OS Agents проводилась на 15 специализированных бенчмарках, охватывающих различные сценарии использования: веб-навигация (Mind2Web, WebArena), работа с офисными приложенияами (OfficeBench), управление мобильными устройствами (AndroidControl) и сложные многоприложные сценарии (OSWorld). На бенчмарке Mind2Web, включающем 2000 задач веб-навигации, лучшие OS Agents достигли 65.2% точности, что на 23% превышает предыдущие методы. В более сложной среде WebArena с динамическими веб-сайтами достигнута точность 38.7%, приблизившись к человеческому уровню в 45.2%. Особенно впечатляющие результаты показаны в задачах многошаговой автоматизации: в среднем агенты справлялись с задачами, требующими 8-12 последовательных

Annotation:

The dream to create AI assistants as capable and versatile as the fictional J.A.R.V.I.S from Iron Man has long captivated imaginations. With the evolution of (multi-modal) large language models ((M)LLMs), this dream is closer to reality, as (M)LLM-based Agents using computing devices (e.g., computers and mobile phones) by operating within the environments and interfaces (e.g., Graphical User Interface (GUI)) provided by operating systems (OS) to automate tasks have significantly advanced. This p...

ID: 2508.04482v1 cs.AI, cs.CL, cs.CV, cs.LG

arXiv PDF

📄 Benchmarking Quantum and Classical Sequential Models for Urban Telecommunication Forecasting

2025-08-09

Авторы:

Chi-Sheng Chen, Samuel Yen-Chi Chen, Yun-Cheng Tsai

## КОНТЕКСТ И ПРОБЛЕМАТИКА В современном мире телекоммуникаций эффективное прогнозирование динамики сетевой активности является ключевым фактором для оптимизации сетевых ресурсов и обеспечения высокого качества услуг. Одним из критически важных показателей является количество входящих SMS-сообщений (SMS-in), которое характеризует динамику сетевой нагрузки в конкретных географических областях. Традиционные методы прогнозирования, основанные на классических моделях, часто сталкиваются с ограничениями в учете сложности временных зависимостей и нерегулярности данных. В последнее время квантовые вычисления и квантово-инспирированные модели привлекают внимание как потенциальное решение для улучшения точности прогнозов временных рядов. Однако, несмотря на обещания квантовых моделей, их эффективность в конкретных задачах остается недостаточно изученной. Особенно важно понять, как квантовые модули взаимодействуют с различными архитектурами и какие факторы определяют их преимущества по сравнению с классическими моделями. В данной статье авторы фокусируются на сравнение классических и квантово-инспирированных моделей для прогнозирования временных рядов SMS-in, используя данные Milan Telecommunication Activity Dataset. Из-за ограничений в доступности данных, исследование ограничено анализом входящей SMS-активности в отдельных географических секторах. Целью исследования является оценка того, насколько эффективны квантово-инспирированные модели в зависимости от длины входной последовательности и какие факторы влияют на их производительность. ## ПРЕДЛОЖЕННЫЙ МЕТОД В рамках исследования были использованы пять моделей: LSTM (длиннократные краткосрочные памятные сети) в качестве базового классического подхода, а также четыре квантово-инспирированные модели: Quantum LSTM (QLSTM), Quantum Adaptive Self-Attention (QASA), Quantum Receptance Weighted Key-Value (QRWKV), и Quantum Fast Weight Programmers (QFWP). Все модели были обучены на основе исторических данных SMS-in для прогнозирования следующего 10-минутного интервала. Для этого использовались последовательности исторических данных различной длины (4, 8, 12, 16, 32, и 64 временными шагами). Квантово-инспирированные модели были спроектированы таким образом, чтобы интегрировать квантовые принципы, такие как квантовая самовнимание, квантовые весовые функции и квантовые алгоритмы программирования. Ключевой момент заключается в том, что каждая модель была оценена с точки зрения ее чувствительности к длине входной последовательности. Архитектура каждой модели была адаптирована для учета квантовых эффектов, но при этом сохраняла общую структуру для обеспечения сравнительной оценки. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В ходе экспериментов были проведены тесты на прогнозирование SMS-in с использованием различных моделей и различных длин входных последовательностей. Результаты показали, что квантово-инспирированные модели демонстрируют разнообразную чувствительность к длине последовательности. В частности, некоторые модели, такие как QASA и QRWKV, показали лучшие результаты на более длинных последовательностях, в то время как другие, такие как QFWP, показали лучшую производительность на коротких последовательностях. Кроме того, исследование показало, что квантовые модели не всегда превосходят классические. Например, LSTM, как базовая модель, показала солидные результаты на различных длинах последовательностей, особенно при коротких входных данных. Это подтверждает, что квантовые улучшения не являются универсальным решением и зависят от конкретных характеристик задачи и архитектуры модели. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Результаты исследования имеют значительное значение для отрасли телекоммуникаций, особенно для операторов сетей, которым требуется точное прогнозирование сетевой нагрузки. Квантово-инспирированные модели могут быть использованы для оптимизации распределения ресурсов, улучшения качества передачи данных и снижения задержек в сети. Кроме того, данное исследование подчеркивает важность выбора подходящей модели и архитектуры в зависимости от конкретной задачи. Это может помочь разработчикам и инженерам выбирать наиболее подходящие модели для прогнозирования временных рядов в условиях реального мира. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В заключение, исследование демонстрирует, что квантово-инспирированные модели могут быть эффективными в некоторых случаях, но их эффективность зависит от конкретных условий задачи. Будущие исследования могут фокусироваться на дальнейшем улучшении квантовых моделей, особенно в контексте их интеграции с классическими подходами. Также необходимо исследовать возможности квантовых моделей в более широких областях прогнозирования временных рядов, включая другие типы телекоммуникационных данных и другие домены, где временные зависимости играют ключевую роль.

Annotation:

In this study, we evaluate the performance of classical and quantum-inspired sequential models in forecasting univariate time series of incoming SMS activity (SMS-in) using the Milan Telecommunication Activity Dataset. Due to data completeness limitations, we focus exclusively on the SMS-in signal for each spatial grid cell. We compare five models, LSTM (baseline), Quantum LSTM (QLSTM), Quantum Adaptive Self-Attention (QASA), Quantum Receptance Weighted Key-Value (QRWKV), and Quantum Fast Weight...

ID: 2508.04488v1 quant-ph, cs.AI

arXiv PDF

📄 Hierarchical Scoring for Machine Learning Classifier Error Impact Evaluation

2025-08-09

Авторы:

Erin Lanus, Daniel Wolodkin, Laura J. Freeman

## КОНТЕКСТ И ПРОБЛЕМАТИКА Машинное обучение (ML) широко используется для классификации объектов, в том числе в задачах детекции, которые включают локализацию объектов с помощью ограничительных рамок. Традиционно оценка точности моделей классификации основывается на простом подходе "проход/неудача", где любое несоответствие предсказанному классу и истинному является ошибкой. Такой подход не учитывает природу ошибок и их возможное вариативное значение. В реальных задачах классы часто структурированы в иерархические таксономии, отражающие отношения между классами или предпочтения пользователей по отношению к ошибкам. Например, ошибка внутри близкого подкласса может быть менее критична, чем ошибка в другой области таксономии. Несмотря на это, существующие метрики оценки не предоставляют механизмов для разграничения ошибок по степени их значимости. Эта проблема мотивирует разработку более тонких метрик, которые учитывают иерархическую структуру классов и позволяют давать "частичные баллы" за предсказания, близкие по смыслу к истинному классу. Такие метрики могут помочь лучше понять влияние ошибок и оптимизировать модели в соответствии с конкретными целями пользователей. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают метод Hierarchical Scoring, основанный на использовании иерархических деревьев для кодирования отношений между классами. Деревья строятся таким образом, чтобы расстояние между предсказанным и истинным классом могло быть измерено и интерпретировано в терминах "стоимости" ошибки. Предложенные метрики варьируются по сложности и позволяют применять различные стратегии взвешивания. Например, можно настроить метрики так, чтобы они отражали большую штраф за ошибки в критичных областях таксономии. Метод включает в себя создание "скоринговых деревьев", где каждый узел представляет класс, а ребра соответствуют отношениям между классами. Эта методология предоставляет гибкость в оценке моделей, позволяя ранжировать их не только по количеству ошибок, но и по их типу и значимости. Авторы также разработали реализации метода на Python, доступные в открытом репозитории. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для демонстрации метода были проведены эксперименты на абстрактном наборе данных с различными стратегиями взвешивания. Авторы использовали иерархические деревья с тремя типами весов, чтобы оценить, как метрики влияют на поведение моделей. Результаты показали, что предложенные метрики дают более детальное представление об ошибках, позволяя выявить те, которые имеют больший вес. Настройка деревьев также показала, что модели могут быть оптимизированы для минимизации ошибок в критичных областях. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкое применение в областях, где важно не только уменьшить количество ошибок, но и контролировать их вид. Например, в медицинской диагностике ошибка в классификации тяжелого заболевания может быть критичнее, чем в более низкорискованной области. Такая гранулярность оценки может повысить надежность и эффективность моделей ML в критических приложениях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Авторы доказали, что Hierarchical Scoring позволяет оценивать модели ML с большей гранулярностью, учитывая иерархию классов. Будущие исследования могут расширить этот подход на более сложные таксономии и применить его в реальных системах, где важно контролировать не только количество, но и тип ошибок.

Annotation:

A common use of machine learning (ML) models is predicting the class of a sample. Object detection is an extension of classification that includes localization of the object via a bounding box within the sample. Classification, and by extension object detection, is typically evaluated by counting a prediction as incorrect if the predicted label does not match the ground truth label. This pass/fail scoring treats all misclassifications as equivalent. In many cases, class labels can be organized i...

ID: 2508.04489v1 cs.LG, cs.AI

arXiv PDF

📄 Learning Robust Intervention Representations with Delta Embeddings

2025-08-09

Авторы:

Panagiotis Alimisis, Christos Diou

## КОНТЕКСТ И ПРОБЛЕМАТИКА Исследование каузального представления данных (causal representation learning) является одним из ключевых направлений в области машинного обучения, направленного на повышение устойчивости и общей эффективности моделей. Основная идея каузального представления заключается в том, что модели могут лучше обобщаться и быть более устойчивыми к изменениям в данных, если они учитывают причинные связи между элементами сцены. Традиционно, большинство исследований в этой области сосредоточены на выявлении и представлении переменных сцены в рамках каузальной модели, однако меньше внимания уделялось представлению самих вмешательств (interventions) в пространстве латентных переменных (latent space). Взаимодействия между элементами сцены и внешними действиями (такими как движения объектов, изменения положения или других факторов) часто требуют специальных методов для их представления и обработки. Однако, существующие методы часто не могут эффективно обрабатывать ситуации, когда данные распределены неравномерно или когда происходят изменения в незначительных частях сцены. Это может привести к снижению качества модели при обработке данных, которые не входят в оригинальный набор данных (out-of-distribution, OOD). В этой работе авторы предлагают решение этой проблемы, сосредоточившись на представлении вмешательств (interventions) в пространстве латентных переменных. Они предлагают использовать "Causal Delta Embeddings", которые характеризуются свойством инвариантности к визуальной сцене (то есть, они не зависят от конкретных визуальных признаков сцены) и являются разреженными (sparse) в отношении причинных переменных, которые они влияют. Эта концепция позволяет модели концентрироваться только на тех частях сцены, которые изменяются в результате вмешательства, улучшая тем самым общую устойчивость модели. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают новый метод для представления вмешательств (interventions) в пространстве латентных переменных, который они называют "Causal Delta Embeddings". Это представление основывается на идее того, что вмешательство может быть описано как изменение в пространстве латентных переменных, которое затрагивает только те переменные, которые были изменены в результате вмешательства. Это позволяет создавать компактное и инвариантное представление вмешательства, которое не зависит от конкретных визуальных признаков сцены. Ключевой момент метода заключается в том, что Causal Delta Embeddings построены таким образом, чтобы они были разреженными (sparse), то есть затрагивали только те причинные переменные, которые были изменены в результате вмешательства. Это позволяет уменьшить дименensionality и сделать представление более эффективным. Метод включает в себя несколько этапов: 1. **Извлечение латентных переменных**: Из исходных изображений извлекаются латентные переменные, которые представляют собой компактное представление сцены. 2. **Обучение Causal Delta Embeddings**: На основе извлеченных латентных переменных модель обучается находить изменения, вызванные вмешательством. Это достигается путем минимизации функции потерь, которая штрафует за несоответствие между изменениями в латентном пространстве и реальными изменениями, вызванными вмешательством. 3. **Инвариантность к визуальным признакам**: Метод обеспечивает, чтобы Causal Delta Embeddings были инвариантны к визуальным признакам сцены, что позволяет модели лучше обобщаться на новые данные. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели эксперименты на наборе данных из Causal Triplet challenge, который включает в себя изображения пар, где вмешательство приводит к изменениям в сцене. Эксперименты проводились в двух режимах: синтетический (synthetic) и реальный (real-world). В синтетическом режиме, где изменения в сцене были хорошо контролируемыми, метод показал значительное улучшение по сравнению с базовыми подходами. В частности, Causal Delta Embeddings показали лучшую точность в определении изменений, вызванных вмешательством, даже в случаях, когда данные были сильно изменены. В реальном режиме, где данные были получены из реальных сцен, метод также показал высокую эффективность. Он превосходил базовые модели в выявлении изменений, вызванных вмешательством, даже когда сцены были сложными и содержали множество деталей. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкое применение в различных областях, где необходимо учитывать причинные связи между элементами сцены. Он может быть использован в таких приложениях, как анализ видеопотоков, обработка изображений, а также в системах автоматического управления, где важно понимать, как различные действия влияют на систему. Одним из главных преимуществ этого метода является его способность обрабатывать данные вне оригинального набора данных (OOD), что делает его особенно полезным в ситуациях, когда модели должны работать в непредвиденных условиях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе было показано, что Causal Delta Embeddings являются эффективным инструментом для представления вмешательств в пространстве латентных переменных, что приводит к значительному улучшению общей устойчивости модели. Будущие исследования могут фокусироваться на дальнейшем улучшении этого подхода, включая исследование более сложных сцен и применение этого метода к другим областям, таким как анализ видео и решение задач в области робототехники.

Annotation:

Causal representation learning has attracted significant research interest during the past few years, as a means for improving model generalization and robustness. Causal representations of interventional image pairs, have the property that only variables corresponding to scene elements affected by the intervention / action are changed between the start state and the end state. While most work in this area has focused on identifying and representing the variables of the scene under a causal mode...

ID: 2508.04492v1 cs.CV, cs.AI

arXiv PDF

📄 PRISM: Lightweight Multivariate Time-Series Classification through Symmetric Multi-Resolution Convolutional Layers

2025-08-09

Авторы:

Federico Zucchi, Thomas Lampert

## КОНТЕКСТ И ПРОБЛЕМАТИКА Многомерная классификация временных рядов (Multivariate Time-Series Classification, MTSC) является ключевой задачей в таких областях, как износостойкие датчики, мониторинг биомедицинских данных и другие приложения, требующие анализа комплексных данных во временном контексте. Несмотря на значительные успехи в этой области, существующие подходы сталкиваются с некоторыми серьезными ограничениями. Модели на основе трансформеров (Transformers) и сверточных нейронных сетей (Convolutional Neural Networks, CNNs), хоть и достигли высоких результатов в классификации, часто характеризуются высокой вычислительной сложностью, требуют больших параметрических ресурсов и имеют ограниченную способность к анализу частотных компонент временных рядов. Эти недостатки делают их менее пригодными для приложений, где важна эффективность ресурсов и возможность работы на ограниченной вычислительной мощности. Кроме того, существующие модели обычно не учитывают многоуровневую природу временных рядов, где различные частотные компоненты могут быть важны на разных временных масштабах. Это ограничение может приводить к потере важной информации при классификации. Таким образом, необходимо разработать новый подход, который сочетает в себе высокую точность классификации и низкую вычислительную сложность, а также учитывает многоуровневую природу данных. ## ПРЕДЛОЖЕННЫЙ МЕТОД Предлагается новый метод под названием PRISM (Per-channel Resolution-Informed Symmetric Module) для классификации многомерных временных рядов. PRISM основывается на использовании симметричных конечно-импульсных фильтров (Finite-Impulse Response, FIR), применяемых на нескольких временных масштабах для каждого канала независимо. Этот подход позволяет получать высокочастотно-селективные эмбеддинги (embeddings) без необходимости выполнения межканальных сверток, что существенно сокращает размер модели и ее вычислительную сложность. Ключевой идеей PRISM является применение фильтров FIR на разных временных масштабах для каждого канала, что позволяет эффективно извлекать информацию о частотных характеристиках данных. Эти фильтры работают независимо для каждого канала, что позволяет сохранить их специфические частотные характеристики. Такой подход обеспечивает лучшую интерпретируемость модели и позволяет эффективно работать с различными типами данных. Архитектура PRISM состоит из нескольких симметричных модулей, каждый из которых обрабатывает входные данные на разных временных масштабах. Эти модули соединены в серию, что позволяет получать многоуровневую представление данных. Кроме того, PRISM использует легковесные классификационные модули, что дает дополнительный прирост в эффективности. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности метода PRISM были проведены эксперименты на нескольких наборах данных, включая Human Activity Recognition (HAR), Sleep-Stage Classification и Biomedical Data. Эти данные представляют собой многомерные временные ряды с различными характеристиками. PRISM был сравнен с несколькими современными методами, включая CNN- и Transformer-based модели. Результаты экспериментов показали, что PRISM достигает точности классификации, сопоставимой с современными моделями, но с значительно меньшим количеством параметров и вычислительных операций (FLOPs). В частности, PRISM использует примерно на порядок меньше параметров и вычислительных ресурсов по сравнению с трансформером и CNN-based моделями. Это демонстрирует высокую эффективность PRISM в решении задачи классификации многомерных временных рядов. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предлагаемый метод PRISM имеет широкое применение в различных областях, требующих классификацию многомерных временных рядов. Например, в биомедицинской области, PRISM может быть использован для мониторинга состояния пациентов, анализа данных, полученных от износостойких датчиков, или для классификации этапов сна. Благодаря своей низкой вычислительной сложности и высокой точности, PRISM может быть внедрен на мобильных устройствах или IoT-устройствах, где ограничены вычислительные ресурсы. Кроме того, PRISM может быть использован в таких областях, как мониторинг физической активности, анализ электрокардиограмм (ECG) и другие приложения, требующие анализа временных рядов. Его эффективность и малогабаритность делают его пригодным для использования в реальных условиях, где важна энергоэффективность и высокая точность классификации. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе представлен метод PRISM, который сочетает в себе классические подходы к обработке сигналов с современными методами глубокого обучения. PRISM показывает высокую точность классификации многомерных временных рядов при значительно меньших ресурсах по сравнению с современными моделями. Это открывает новые возможности для применения в реальных условиях, где важна эффективность ресурсов. Будущие исследования могут фокусироваться на дальнейшем улучшении PRISM, включая его адаптацию для работы с более сложными временными рядами или для использования в реальном времени. Кроме того, можно исследовать возможность интеграции PRISM с другими моделями или методами обработки данных для повышения его эффективности.

Annotation:

Multivariate time-series classification is pivotal in domains ranging from wearable sensing to biomedical monitoring. Despite recent advances, Transformer- and CNN-based models often remain computationally heavy, offer limited frequency diversity, and require extensive parameter budgets. We propose PRISM (Per-channel Resolution-Informed Symmetric Module), a convolutional-based feature extractor that applies symmetric finite-impulse-response (FIR) filters at multiple temporal scales, independentl...

ID: 2508.04503v1 cs.LG, cs.AI

arXiv PDF

📄 Argumentative Debates for Transparent Bias Detection [Technical Report]

2025-08-09

Авторы:

Hamed Ayoobi, Nico Potyka, Anna Rapberger, Francesca Toni

## КОНТЕКСТ И ПРОБЛЕМАТИКА С ростом применения искусственного интеллекта (ИИ) в обществе возрастает необходимость решения проблем, связанных с потенциальными смещениями (байес) в данных или моделях. Такие смещения могут приводить к систематическим недостаткам для определенных групп людей, что вызывает проблемы справедливости и социальной ответственности. В литературе было предложено множество понятий несправедливости (unfairness), а также алгоритмические методы для их выявления и смягчения. Однако большинство этих методов игнорируют важный аспект – прозрачность. Прозрачность является ключевым требованием для алгоритмов, оперирующих в области справедливости. Это обусловлено тем, что справедливость является ориентированной на человека понятием, и пользователи должны понимать, как и почему были приняты то или иное решение. Интерпретируемость и объяснимость являются необходимыми компонентами для достижения прозрачности в алгоритмах, особенно в контексте справедливости. Несмотря на это, существующие подходы к обнаружению и смягчению несправедливости часто не обеспечивают достаточного уровня прозрачности. В этой статье авторы предлагают новый метод для обнаружения смещений, основанный на аргументации. Метод использует дебаты (рассуждения) о наличии смещений в отношении отдельных лиц на основе значений защищенных признаков для этих лиц и их соседей. Этот подход использует методы формальной и вычислительной аргументации, где дебаты происходят как внутри, так и между соседними группами. Такой подход позволяет достигнуть более высокого уровня прозрачности и объяснимости решений. ## ПРЕДЛОЖЕННЫЙ МЕТОД Предлагаемый метод основывается на техниках формальной и вычислительной аргументации для обнаружения смещений. Он использует концепцию "соседей" (neighbourhoods), где каждый индивид анализируется не только по своим характеристикам, но и по характеристикам других людей в его окружении. Дебаты формируются на основе аргументов о наличии смещений, связанных с защищенными признаками (например, расой, полу, возрастом). Аргументы формируются на основе двух видов дебатов: внутри соседства (intra-neighbourhood) и между соседствами (inter-neighbourhood). Эти дебаты позволяют выявить несогласованности и смещения в распределении ресурсов или решений между различными группами. Метод также использует формальные методы аргументации для квантификации и анализа этих дебатов, что позволяет получить количественные оценки смещений. Ключевым моментом этого метода является его интерпретируемость. Дебаты и аргументы представлены в форме, которая понятна человеку, что позволяет обеспечить высокую прозрачность в процессе обнаружения смещений. Этот подход также позволяет пользователям получить подробные объяснения о том, почему было принято то или иное решение, что является важной частью процесса обеспечения справедливости. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗЫЛЬТАТЫ Авторы провели ряд экспериментов для оценки эффективности предлагаемого метода. Эксперименты были проведены на различных наборах данных, которые содержали информацию о защищенных признаках и решениях, которые могут быть подвержены смещениям. Для сравнения были использованы базовые методы, которые не используют аргументацию. Результаты экспериментов показали, что предлагаемый метод выявляет смещения с высокой точностью и предлагает более прозрачные объяснения для своих решений по сравнению с базовыми методами. Интерпретируемость метода позволила пользователям лучше понимать причины обнаруженных смещений, что является важной частью процесса обеспечения справедливости. Кроме того, метод показал хорошие результаты в выявлении смещений в различных контекстах, включая различные типы данных и признаков. Это подтверждает его универсальность и применимость в различных областях, где важна справедливость и прозрачность. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предлагаемый метод имеет широкое применение в областях, где важна справедливость и прозрачность принятия решений. Он может быть использован в таких областях, как кредитование, найм персонала, медицинская диагностика и другие области, где важно обеспечить равное обращение с различными группами людей. Преимущества этого метода включают высокую прозрачность и объяснимость решений, что позволяет пользователям лучше понимать и контролировать процесс принятия решений. Это может привести к более справедливому и этическому использованию ИИ в обществе, предотвращая дискриминацию и несправедливость. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В этой статье был представлен новый метод для обнаружения смещений на основе аргументации, который обеспечивает высокий уровень прозрачности и объяснимости. Метод показал хорошие результаты в экспериментах и имеет широкое применение в различных областях. Будущие исследования могут фокусироваться на дальнейшем улучшении метода, включая расширение его применимости к более сложным данным и контекстам. Также может быть исследовано влияние этого метода на реальные приложения ИИ и его влияние на социальную справедливость.

Annotation:

As the use of AI systems in society grows, addressing potential biases that emerge from data or are learned by models is essential to prevent systematic disadvantages against specific groups. Several notions of (un)fairness have been proposed in the literature, alongside corresponding algorithmic methods for detecting and mitigating unfairness, but, with very few exceptions, these tend to ignore transparency. Instead, interpretability and explainability are core requirements for algorithmic fair...

ID: 2508.04511v1 cs.AI, cs.LG

arXiv PDF

📄 A Comprehensive Framework for Uncertainty Quantification of Voxel-wise Supervised Models in IVIM MRI

2025-08-09

Авторы:

Nicola Casali, Alessandro Brusaferri, Giuseppe Baselli, Stefano Fumagalli, Edoardo Micotti, Gianluigi Forloni, Riaz Hussein, Giovanna Rizzo, Alfonso Mastropietro

## КОНТЕКСТ И ПРОБЛЕМАТИКА Оценка параметров intravoxel incoherent motion (IVIM) из диффузионно-взвешенной МРТ (DW-MRI) представляет собой сложную задачу, затрудненную некорректностью обратной задачи и высокой чувствительностью к шумам, особенно в перфузионном компоненте. Данная область исследования имеет большое значение, поскольку IVIM-параметры играют ключевую роль в оценке микроциркуляции крови и диффузии в тканях. Однако существующие методы характеризуются значительными недостатками, включая недостаточную точность и неустойчивость оценок в условиях реальных клинических данных. Одним из основных вызовов является необходимость учета неопределенности в оценках параметров, включая как алёаторическую (AU), связанную с шумами в данных, так и эпистемическую (EU), вызванную недостаточностью модели или несоответствием между тренировочными и реальными данными. Традиционные непробебилистические нейросетевые модели, а также байесовские подходы, не всегда обеспечивают достаточную точность и калибровку оценок неопределенности. В связи с этим, авторы статьи предлагают новый пробебилистический подход на основе Deep Ensembles (DE) и Mixture Density Networks (MDNs) для комплексной оценки неопределенности в моделях, основанных на DW-MRI. Данный подход направлен на решение проблемы недостоверных оценок и повышения надежности моделей путем декомпозиции неопределенности на её составляющие. ## ПРЕДЛОЖЕННЫЙ МЕТОД Предложенная модель основывается на комбинации Deep Ensembles (DE) и Mixture Density Networks (MDNs), что позволяет достичь комплексной оценки неопределенности. MDNs используются для моделирования плотности вероятностей выходных параметров, включая диффузионный коэффициент $D$, фракцию $f$ и псевдодиффузионный коэффициент $D*$. DE обеспечивает разнообразие предсказаний за счет обучения нескольких нейросетей с различными инициализациями, что позволяет лучше охватить пространство возможных решений и оценить эпистемическую неопределенность. Процесс обучения проводится на синтезированных данных, сгенерированных на основе физиологически допустимых диапазонов параметров. В процессе обучения учитывается специфика DW-MRI, включая влияние шума и нелинейностей в процессе обработки данных. Для оценки качества модели используются метрики, такие как калибровочные кривые, результаты Continuous Ranked Probability Score (CRPS) и другие индикаторы точности и калибровки. Предложенный метод также включает в себя модуль декомпозиции неопределенности, позволяющий разделить её на алёаторическую и эпистемическую составляющие. Это позволяет идентифицировать недостоверные оценки, вызванные либо шумами в данных, либо несоответствием модели реальным условиям. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты проводились как на синтезированных, так и на реальных in vivo данных. Результаты показывают, что MDNs обеспечивают более калиброванные и острые предсказательные распределения для параметров $D$ и $f$, хотя для $D*$ наблюдается небольшое преуверешенное (overconfident) поведение. Использование CRPS показало, что MDNs обеспечивают более гладкие оценки для $D*$ по сравнению с традиционным гауссовским моделированием. Было также продемонстрировано, что EU имеет высокое значение в реальных in vivo условиях, что свидетельствует о несоответствии между тренировочными данными и реальными условиями сканирования. Это подчеркивает важность учета EU в процессе моделирования, что было успешно реализовано в предложенной рамке. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкое применение в клинической практике и научных исследованиях, где точная оценка IVIM-параметров крайне важна. Он позволяет не только повысить точность оценок, но и идентифицировать недостоверные результаты, что может предотвратить ошибочные клинические решения. Кроме того, данный подход может быть адаптирован для моделирования других физических процессов за счет соответствующих модификаций архитектуры и симуляционных данных. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В данной работе представлен комплексный подход к оценке неопределенности в моделях IVIM-MRI, который обеспечивает точные и калиброванные предсказания. Будущие исследования могут фокусироваться на дальнейшей оптимизации модели, включая расширение диапазона тренировочных данных и улучшение модуля декомпозиции неопределенности. Также предлагается исследовать возможности применения этого подхода в других областях медицинского изображений.

Annotation:

Accurate estimation of intravoxel incoherent motion (IVIM) parameters from diffusion-weighted MRI remains challenging due to the ill-posed nature of the inverse problem and high sensitivity to noise, particularly in the perfusion compartment. In this work, we propose a probabilistic deep learning framework based on Deep Ensembles (DE) of Mixture Density Networks (MDNs), enabling estimation of total predictive uncertainty and decomposition into aleatoric (AU) and epistemic (EU) components. The me...

ID: 2508.04588v2 eess.IV, cs.AI, cs.LG

arXiv PDF

📄 Neuromorphic Cybersecurity with Semi-supervised Lifelong Learning

2025-08-09

Авторы:

Md Zesun Ahmed Mia, Malyaban Bal, Sen Lu, George M. Nishibuchi, Suhas Chelian, Srini Vasan, Abhronil Sengupta

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современные системы обнаружения сетевых вторжений (NIDS) сталкиваются с фундаментальным противоречием между необходимостью постоянной адаптации к новым видам киберугроз и риском катастрофического забывания ранее изученных паттернов. Традиционные ИИ-подходы, основанные на глубоком обучении, демонстрируют высокую точность при обучении на статических наборах данных, но теряют эффективность в условиях реального времени, где поток сетевого трафика непрерывно эволюционирует и появляются ранее неизвестные типы атак. Ключевыми проблемами являются: во-первых, энергетическая неэффективность классических нейросетей, требующих значительных вычислительных ресурсов для обработки высокоскоростного трафика; во-вторых, неспособность к инкрементальному обучению без полного переобучения модели; в-третьих, отсутствие механизмов, позволяющих сохранить знания о старых атаках при изучении новых. Эти ограничения особенно критичны для встраиваемых систем и edge-устройств, где доступны ограниченные вычислительные ресурсы и энергия. Нейроморфные вычисления, вдохновленные принципами работы биологического мозга, предлагают революционный подход к решению этих проблем. Импульсные нейронные сети (SNN) обеспечивают исключительную энергоэффективность за счет асинхронной обработки информации и sparse-кодирования, тогда как биологически правдоподобные механизмы пластичности позволяют реализовать непрерывное обучение в течение всего жизненного цикла системы. Однако до настоящего времени отсутствовали практические реализации SNN-архитектур, способных эффективно функционировать в динамических условиях кибербезопасности. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают двухуровневую иерархическую архитектуру нейроморфной системы обнаружения вторжений, которая решает проблему lifelong learning через разделение функций между статическим и динамическим компонентами. Первый уровень представляет собой статическую SNN, обученную на начальном наборе данных для первичной фильтрации потенциально вредоносного трафика. Эта сеть работает в режиме энергоэффективного инференса с высокой степенью разреженности активаций (до 95%), что критично для реального времени. Когда статический классификатор обнаруживает подозрительную активность, активируется второй уровень - адаптивный динамический SNN-классификатор. Этот компонент реализует принципиально новый подход к continual learning через комбинацию двух биологически инспирированных механизмов. Первый механизм основан на Grow When Required (GWR)-подобной структурной пластичности, позволяющей динамически добавлять новые нейроны в ответ на появление неизвестных паттернов атак. Второй механизм - это разработанная авторами адаптивная правило Spike-Timing-Dependent Plasticity (Ad-STDP), которое модифицирует силу синаптических связей в зависимости от временных корреляций между нейронами. Ad-STDP выходит за рамки классического STDP через введение метапараметров, которые автоматически регулируют скорость обучения для каждого синапса индивидуально. Это позволяет сохранять важные связи, отвечающие за распознавание известных атак, одновременно формируя новые связи для изучаемых угроз. Система использует semi-supervised подход: при наличии меток классов происходит обучение с учителем, в отсутствие меток - самообучение на основе кластеризации импульсных паттернов. Для обработки сетевых данных разработан специализированный энкодер, преобразующий признаки сетевого трафика в временные импульсные последовательности. Этот процесс учитывает как статистические характеристики пакетов (размеры, временные интервалы), так и поведенческие паттерны (последовательности флагов TCP, частоты обращений к портам). ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Экспериментальная валидация проводилась на стандартном наборе данных UNSW-NB15, содержащем 2.54 миллиона записей сетевого трафика с 49 типами атак, распределенных по 9 категориям. Для создания реалистичного сценария lifelong learning, исходный набор данных был разделен на 5 временных срезов, каждый из которых добавлял 20% новых типов атак, недоступных предыд

Annotation:

Inspired by the brain's hierarchical processing and energy efficiency, this paper presents a Spiking Neural Network (SNN) architecture for lifelong Network Intrusion Detection System (NIDS). The proposed system first employs an efficient static SNN to identify potential intrusions, which then activates an adaptive dynamic SNN responsible for classifying the specific attack type. Mimicking biological adaptation, the dynamic classifier utilizes Grow When Required (GWR)-inspired structural plastici...

ID: 2508.04610v2 cs.LG, cs.AI, cs.ET, cs.NE

arXiv PDF

1
2
3375
3376
3377
3378
3379
3402
3403

Показано 33761 - 33770 из 34022 записей