📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 SHAPoint: Task-Agnostic, Efficient, and Interpretable Point-Based Risk Scoring via Shapley Values

2025-10-01

Авторы:

Tomer D. Meirman, Bracha Shapira, Noa Dagan, Lior S. Rokach

## Контекст В статье предлагается решение проблемы оценки риска в клинических приложениях, где необходимо легко понять и проверить точность моделей. Существующие подходы часто требуют многочисленных предварительных преобразований данных и затратного подбора моделей, что затрудняет понимание и применение результатов. Эти проблемы становятся критичными при работе с большими данными и требуют прозрачных и эффективных решений. Авторы ставят цель создать универсальный метод, который бы одновременно обеспечивал высокую точность, интерпретируемость и гибкость. ## Метод Методология SHAPoint основывается на интеграции модели градиентного бустинга на деревьях с фреймворком Shapley Values для получения интерпретаций. Она поддерживает три класса задач: классификацию, регрессию и анализ выживаемости. Архитектура SHAPoint обеспечивает две основные особенности: нативную обработку пропусков в данных и возможность контролировать монотонность в зависимости от признаков. Эти свойства позволяют модели не только делать прогнозы, но и объяснять их на основе весов признаков. Эта модель может быть применена в различных задачах без предварительной подготовки данных. ## Результаты Шесть экспериментов проводились на различных датасетах, охватывающих классификацию, регрессию и задачи выживаемости. На каждом датасете сравнивались результаты SHAPoint с другими методами, включая SHAP, LIME и стандартные модели градиентного бустинга. Результаты показали, что SHAPoint обеспечивает высокую точность с значительно более коротким временем работы. Он также демонстрирует похожие и, в некоторых случаях, лучшие результаты по интерпретируемости в сравнении с другими интерпретируемыми моделями. ## Значимость SHAPoint может применяться в клинических приложениях для риск-стратификации, мониторинга здоровья и диагностики заболеваний. Его гибкость и прозрачность делают его подходящим для решения различных задач. Он предлагает значительные преимущества по сравнению с другими интерпретируемыми моделями, включая улучшенную производительность и уменьшенную зависимость от предварительных преобразований данных. Это делает SHAPoint полезным для ситуаций, когда необходимо быстро принять решения на основе интерпретируемых результатов. ## Выводы SHAPoint представляет собой эффективный и прозрачный фреймворк для получения интерпретаций риска. Он доказал свою эффективность в различных клинических задачах с высокой точностью и быстродействием. Будущие исследования будут сфокусированы на расширении скорости работы SHAPoint и его применении к более сложным клиническим задачам с большим количеством данных.

Annotation:

Interpretable risk scores play a vital role in clinical decision support, yet traditional methods for deriving such scores often rely on manual preprocessing, task-specific modeling, and simplified assumptions that limit their flexibility and predictive power. We present SHAPoint, a novel, task-agnostic framework that integrates the predictive accuracy of gradient boosted trees with the interpretability of point-based risk scores. SHAPoint supports classification, regression, and survival tasks,...

ID: 2509.23756v1 cs.LG, cs.AI, I.2.6; J.3; H.4.2

arXiv PDF

📄 OFMU: Optimization-Driven Framework for Machine Unlearning

2025-09-30

Авторы:

Sadia Asif, Mohammad Mohammadi Amiri

## Контекст Отсутствие возможности удаления конкретных данных из обученных моделей становится всё более важной проблемой для больших языковых моделей, работающих в секретных и регулируемых сферах. Информация, необходимого удалить, может включать пользовательские запросы, копирайтерные материалы или устаревшие данные. Метод **уничтожения машинным образом** (machine unlearning) позволяет удалить эти данные без полного переобучения модели, чтобы сохранить её эффективность на оставшихся данных. Однако текущие методы часто страдают от нестабильности в тренировочных процессах и уменьшают модельную эффективность в результате конфликтующих градиентов. Наша работа предлагает OFMU — новую методологию для решения этой проблемы. ## Метод **OFMU** (Optimization-Driven Framework for Machine Unlearning) представляет собой пениальную двухуровневую оптимизационную структуру. Основной идеей является использование **сходства-осведомлённой пенальти** для декорреляции градиентов удаления и сохранения данных. Это позволяет снизить конфликт между двумя целями: удаление нежелательных данных и сохранение знаний о других. Мы также разработали простой двухэтапный алгоритм, который гарантирует конвергенцию вне зависимости от того, является ли целевая функция выпуклой или невыпуклой. Основной выгодой OFMU является возможность лучшего баланса между удалением и сохранением модели, чем у ранее предложенных способов. ## Результаты Мы проводили исследования на различных бенчмарках, включая задачи обработки текста и визуальных данных. Наши эксперименты показали, что **OFMU** не только превосходит существующие методы в удалении данных, но и сохраняет более высокую эффективность модели на оставшихся данных. Например, на задачах классификации изображений и текстов, где требуется удалить конкретные слова или фразы, **OFMU** показался более эффективным в задаче удаления, оставив модели более высокоскоростным и точным. ## Значимость **OFMU** открывает новые возможности в реализации моделей, которые должны соответствовать законодательству или требованиям конфиденциальности. Он может использоваться в секретных, медицинских и финансовых системах, где удаление конкретных данных является критически важной задачей. Благодаря лучшему балансу между удалением и сохранением модели, **OFMU** позволяет сохранить высокую модельную эффективность, даже после удаления конкретных данных. ## Выводы **OFMU** — это перспективный подход к решению задачи удаления данных в больших моделях языка, который обеспечивает эффективное удаление и сохранение модели. Мы планируем провести дополнительные эксперименты на

Annotation:

Large language models deployed in sensitive applications increasingly require the ability to unlearn specific knowledge, such as user requests, copyrighted materials, or outdated information, without retraining from scratch to ensure regulatory compliance, user privacy, and safety. This task, known as machine unlearning, aims to remove the influence of targeted data (forgetting) while maintaining performance on the remaining data (retention). A common approach is to formulate this as a multi-obj...

ID: 2509.22483v1 cs.LG, cs.AI, I.2.6; I.2.7

arXiv PDF

📄 1 bit is all we need: binary normalized neural networks

2025-09-12

Авторы:

Eduardo Lobo Lustoda Cabral, Paulo Pirozelli, Larissa Driemeier

## Контекст Настоящее исследование сосредоточено на проблемах, связанных с размером и вычислительной сложностью больших нейронных сетей, таких как модели языка и обработки изображений. Из-за их огромного размера, необходимость хранения большого количества данных и высокой расход ресурсов во время их использования препятствуют их эффективной развертываемости в реальных приложениях. Одной из целей этого исследования является разработка новых методов, которые позволят создавать модели с меньшим размером и низким вычислительным влиянием, при этом сохраняя высокую точность и эффективность. ## Метод Разработана новая технология, основанная на использовании 1-битных параметров в нейронных сетях. Новые слои, названные **binary normalized layers**, используют только два значения — 0 и 1 — для представления всех параметров, включая веса сверток и биасы. Эти слои являются оболочкой для существующих типов слоев (полносвязных, сверточных, атитнуциональных), но с небольшими модификациями. Для исследования эффективности этого подхода, разработаны две модели: модель для задачи классификации изображений с помощью сверточных и полносвязных слоев, и модель для задачи предсказания следующего символа в тексте с помощью трансформера с множественным вниманием. ## Результаты Экспериментальные испытания показали, что модели с бинарными нормализованными слоями показали результаты, которые в основном совпадают с результатами моделей, использующих обычные 32-битные параметры. Например, модель для классификации изображений демонстрирует почти такую же точность, как модель с 32-битными параметрами, при этом используя 32 раз меньше памяти. Также, модель для задачи предсказания текста показала эквивалентные результаты, уменьшая требования к памяти. Это демонстрирует эффективность нового подхода в сокращении размера моделей и уменьшении вычислительного влияния. ## Значимость Результаты демонстрируют, что 1-битные модели могут быть применены в различных областях, таких как мобильные приложения, IoT-устройства и даже нетрендовые компьютеры. Одним из основных преимуществ является значительное сокращение объема необходимой памяти (32 раз в сравнении с 32-битными моделями), что позволяет развертывать модели на устройствах с ограниченными ресурсами. Безусловным преимуществом является то, что 1-битные модели могут быть реализованы на существующем железе без необходимости разработки специальных аппаратных решений. ## Выводы Основным достижением является разработка нового типа нейронных сетей с 1-битными параметрами,

Annotation:

The increasing size of large neural network models, specifically language models and foundational image models, poses deployment challenges, prompting efforts to reduce memory requirements and enhance computational efficiency. These efforts are critical to ensure practical deployment and effective utilization of these models across various applications. In this work, a novel type of neural network layers and models is developed that uses only single-bit parameters. In this novel type of models a...

ID: 2509.07025v1 cs.LG, cs.AI, I.2.6

arXiv PDF

📄 Deep Residual Echo State Networks: exploring residual orthogonal connections in untrained Recurrent Neural Networks

2025-09-02

Авторы:

Matteo Pinna, Andrea Ceni, Claudio Gallicchio

## Контекст Echo State Networks (ESNs) — это вид необученных Recurrent Neural Networks (RNNs) в контексте Reservoir Computing (RC). Они привлекают внимание своей быстрой и эффективной обработкой данных. Однако, традиционные ESNs часто сталкиваются с проблемами в обработке долгосрочной информации. Это ограничивает их применение в задачах, требующих высокой точности моделирования динамических процессов. Мотивация для данных исследований лежит в необходимости улучшить модели RC для решения задач связанных с долгосрочной рекуррентностью. Deep Residual Echo State Networks (DeepResESNs) представляют собой новую подходящую модель, которая использует глубинные ресурсы с необученными ортогональными резидентными слоями для решения этих проблем. ## Метод DeepResESNs основываются на включении в систему глубинных, необученных эхо-сетей с временными резидентными связями. Резидентные слои строятся таким образом, чтобы обеспечить ортогональность между ними, что позволяет повысить способность модели к моделированию долгосрочных зависимостей. Ортогональные связи генерируются либо случайно, либо с помощью заданной структуры. Математическая модель определяет условия стабильности системы, обеспечивая ее устойчивость при работе. Для экспериментов воспользовались широким набором временных рядов, измеряя точность и надежность модели на различных задачах. ## Результаты Эксперименты показали, что DeepResESNs существенно превосходят традиционные ESNs в задачах, требующих долгосрочного моделирования. Мы проводили эксперименты с разными видами ортогональных связей, обнаружив, что их наличие существенно повышает способность модели к хранению информации в течение долгого времени. Математическая аналитика подтвердила устойчивость модели в различных условиях. Этот подход показал выигрыш в производительности по сравнению с традиционными RC-моделями и даже с некоторыми обученными сетями. ## Значимость DeepResESNs могут быть применены в различных областях, где требуется моделирование долгосрочных релаций данных, таких как финансовый анализ, моделирование климата, анализ сигналов и другие прикладные задачи. Эта модель предоставляет выгоду в своей простоте и эффективности, не требуя сложной обученной архитектуры. Высокая моделируемая точность и способность к долгосрочной рекуррентности делают DeepResESNs привлекательной для задач, где традиционные методы недостаточно эффективны. ## Выводы DeepResESNs представляют собой прорыв в области необученных RNNs, повышая способность моделей к моделированию долгосрочных зависимостей. Мы устанавливаем условия для их устойчивости и демонстрируем их выигрыш в производительности по сравнению с традиционными подходами. Бу

Annotation:

Echo State Networks (ESNs) are a particular type of untrained Recurrent Neural Networks (RNNs) within the Reservoir Computing (RC) framework, popular for their fast and efficient learning. However, traditional ESNs often struggle with long-term information processing. In this paper, we introduce a novel class of deep untrained RNNs based on temporal residual connections, called Deep Residual Echo State Networks (DeepResESNs). We show that leveraging a hierarchy of untrained residual recurrent la...

ID: 2508.21172v1 cs.LG, cs.AI, I.2.6

arXiv PDF

📄 Physics-Informed Spectral Modeling for Hyperspectral Imaging

2025-09-02

Авторы:

Zuzanna Gawrysiak, Krzysztof Krawiec

#### Контекст Физико-ориентированное диагностирование и моделирование в инфракрасной и гиперспектральной обработке изображений является ключевым заданием в различных областях, включая геологию, агрономию и географическую информационную систему. Существующие методы часто требуют больших объемов меток или тщательной настройки параметров, что снижает их эффективность и универсальность. Эта проблема становится острой при обработке данных гиперспектральных сканеров, получаемых на борту дронов и космических аппаратов. Необходимо разработать метод, который мог бы учитывать физические законы, скрытые в гиперспектральных данных, а также обеспечивать интерпретируемую модель для улучшения классификации и регрессии. #### Метод Мы представляем PhISM (Physics-Informed Spectral Modeling) — новую физико-ориентированную архитектуру, основанную на глубоких нейронных сетях. Она использует непрерывные базисные функции для точного моделирования гиперспектральных данных. В отличие от существующих архитектур, PhISM не требует большого объема меток, так как она адаптивно выявляет физические законы в гиперспектральных наблюдениях, используя глубокое обучение. Модель работает с помощью концепции физической пилотной функции (Physics-Informed Pilot Function), которая позволяет моделировать данные с учетом законов физики. Архитектура PhISM состоит из компонентов для применения физических законов, извлечения фишек и обучения нейросети. #### Результаты Мы проверили PhISM на нескольких датасетах гиперспектральных сканеров, включая пищевую отрасль, геологию и другие. Модель показала превосходные показатели в классификации и регрессии по сравнению с современными нейронными моделями. Благодаря интерпретируемости её представления, PhISM предоставляет дополнительные инсайты в структуре данных. Мы проверили её чувствительность к начальным параметрам и показали, что она показывает стабильные результаты даже при ограниченном объеме меток. #### Значимость PhISM может быть применена в различных областях, где требуется моделирование гиперспектральных данных с учетом физических законов. Это включает геологическую картирования, земледелие, мониторинг климата и другие. Основные преимущества — уменьшение необходимого объема меток, лучшая точность классификации и регрессии, а также возможность получить интерпретируемые результаты. Это может существенно повысить эффективность и точность приложений, основанных на гиперспектральных данных. #### Выводы PhISM доказала свою эффективность в моделировании гиперспектральных данных с учетом ф

Annotation:

We present PhISM, a physics-informed deep learning architecture that learns without supervision to explicitly disentangle hyperspectral observations and model them with continuous basis functions. \mname outperforms prior methods on several classification and regression benchmarks, requires limited labeled data, and provides additional insights thanks to interpretable latent representation.

ID: 2508.21618v1 cs.LG, cs.AI, I.2.6; I.2.10; J.2

arXiv PDF

📄 Out of Distribution Detection for Efficient Continual Learning in Quality Prediction for Arc Welding

2025-08-27

Авторы:

Yannik Hahn, Jan Voets, Antonin Koenigsfeld, Hasan Tercan, Tobias Meisen

## Контекст Modern manufacturing основывается на сложных процессах специализированной обработки металлов, включая gas metal arc welding (GMAW). Однако, несмотря на развитие машинного обучения, подходы к качественному прогнозированию в динамичных производственных условиях сталкиваются с основной проблемой — изменением распределения данных (out-of-distribution, OOD). Эти изменения могут привести к неточностям и нестабильности в процессе прогнозирования качества. Наша исследовательская группа адресовала эту проблему, предложив фреймворк, который не только обеспечивает точность в прогнозировании качества, но и эффективно обнаруживает изменения распределения данных, чтобы модель могла адаптироваться к новым условиям. ## Метод Мы расширяем архитектуру VQ-VAE Transformer, которая ранее показала выдающиеся результаты в задачах прогнозирования качества в процессе GMAW. Новая модель включает авторегрессивную функцию потерь, которая используется для OOD-обнаружения. Мы также внедрили стратегии continual learning, чтобы модель адаптировалась к новым данным без постоянного переучивания. Это достигается за счет максимально эффективного использования доступных данных и снижения необходимости частых обновлений модели. Для лучшего понимания и оценки результатов, мы привлекли объективный метрический подход, который комбинирует OOD-обнаружение и производительность в рамках распределения. ## Результаты Мы проверили наш фреймворк на реальных задачах прогнозирования качества в GMAW. Модель показала высокую точность в прогнозировании качества и эффективность в обнаружении изменений распределения данных. Эксперименты показали, что наш подход превосходит другие методы, такие как reconstruction-based и error-based, в обнаружении OOD. Мы также исследовали ситуации, в которых модель адаптировалась к новым данным без потери качества в оценке внутри распределения. ## Значимость Наша работа демонстрирует значимый потенциал применения OOD-обнаружения в производственных условиях. Обнаруживая изменения распределения данных, мы способствуем эффективной адаптации моделей, чтобы они оставались точными и надежными в процессах сильных изменений. Это важно для производственных систем, где качество продукции требует непрерывного мониторинга. Наш подход сочетает точность, эффективность и объяснимость, что делает его привлекательным для индустрии. ## Выводы Мы предложили новый подход к качественному прогнозированию в процессе GMAW, который эффективно обнаруживает изменения распределения данных и позволяет модели адаптироваться к изменениям в условиях производства. Наши результаты показали, что этот подход не только обеспечивает лучшую производительность, но и создает новые возможности для продолжительного

Annotation:

Modern manufacturing relies heavily on fusion welding processes, including gas metal arc welding (GMAW). Despite significant advances in machine learning-based quality prediction, current models exhibit critical limitations when confronted with the inherent distribution shifts that occur in dynamic manufacturing environments. In this work, we extend the VQ-VAE Transformer architecture - previously demonstrating state-of-the-art performance in weld quality prediction - by leveraging its autoregre...

ID: 2508.16832v1 cs.LG, cs.AI, I.2.6; I.5.1

arXiv PDF

📄 Score-informed Neural Operator for Enhancing Ordering-based Causal Discovery

2025-08-20

Авторы:

Jiyeon Kang, Songseong Kim, Chanhui Lee, Doyeong Hwang, Joanie Hayoun Chung, Yunkyung Ko, Sumin Lee, Sungwoong Kim, Sungbin Lim

## Контекст Ordering-based методы для поиска причинных связей исследуют топологический порядок в структурах каузальных графов. Эти методы являются более эффективными по сравнению с полным поиском в комбинаторических пространствах. Новые подходы, основанные на Additive Noise Model (ANM), используют score matching для оценки градиентов и Hessian-диагонали лог-плотностей. Тем не менее, существующие методы, основанные на Stein-градиентах, требуют высокого вычислительного и памятного воздействия, что ограничивает их эффективность. Другие подходы, такие как DiffAN, используют диффузионные модели для оценки Hessian-диагонали, но страдают от ненадежности в решении второго порядка дифференциальных уравнений. Мы предлагаем Score-informed Neural Operator (SciNO), который предназначен для стабильной оценки Hessian-диагонали в пространствах гладких функций, сохраняя структурную информацию во время моделирования. Наш подход может быть успешно применен в области каузальных исследований и подходах к моделированию семантики. ## Метод SciNO является проблемой в пространствах гладких функций, основанной на методе нейронных операторов. Он использует diffusion-based методы для точной оценки Hessian-диагонали, избегая вычислительных и памятных проблем, с которыми сталкиваются подходы Stein-градиента. Метод нового типа использует второй порядок диффузионных моделей, что позволяет обеспечить более стабильное и точное определение причинных связей. Он также включает авторегрессионные модели, которые интегрируют выводы SciNO в виде вероятностных оценок, улучшая понимание семантики в каузальных моделях. ## Результаты Мы проводили эксперименты на синтетических и реальных данных, сравнивая SciNO с DiffAN и другими предыдущими методами. На синтетических данных, мы получили результаты с ошибкой относительного порядка 42.7% ниже DiffAN, а на реальных данных — 31.5%. Эти результаты показывают, что SciNO обеспечивает более точное и надежное определение причинных связей, при этом характеризуясь высокой масштабируемостью и эффективностью в памяти. Благодаря интеграции с авторегрессионными моделями, SciNO улучшает каузальные модели, делая их более надежными для решения задач семантической информации. ## Значимость Процесс моделирования причинных связей имеет важное значение в машинном обучении и статистических выводах. SciNO улучшает эффективность этого процесса, обеспечивая более точный порядок причинных связей. Он также имеет широкие приложения в таких областях, как медицинские исследования, технологии Интернета вещей и анализ данных в сетях социальных связей. Интеграция с авто

Annotation:

Ordering-based approaches to causal discovery identify topological orders of causal graphs, providing scalable alternatives to combinatorial search methods. Under the Additive Noise Model (ANM) assumption, recent causal ordering methods based on score matching require an accurate estimation of the Hessian diagonal of the log-densities. However, previous approaches mainly use Stein gradient estimators, which are computationally expensive and memory-intensive. Although DiffAN addresses these limit...

ID: 2508.12650v1 cs.LG, cs.AI, I.2.6; I.2.8

arXiv PDF

📄 Residual Reservoir Memory Networks

2025-08-15

Авторы:

Matteo Pinna, Andrea Ceni, Claudio Gallicchio

## Контекст Residual Reservoir Memory Networks (ResRMNs) — это новая класса необученных рекуррентных нейронных сетей (Recurrent Neural Networks, RNNs), основанная на парадигме Reservoir Computing (RC). Исследование сетей RC направлено на решение задач обработки и анализа временных рядов, которые характеризуются высокой нелинейностью и динамичностью. Традиционные RNNs часто сталкиваются с проблемами во время обучения, такими как vanishing gradients. Reservoir Computing предлагает альтернативный подход, где только нейронный генератор (reservoir) обучается, а веса выходного слоя остаются неизменными. Однако существуют ограничения в способности традиционных RC-моделей к эффективной долгосрочной передаче информации (long-term dependencies). ResRMNs предлагают решение этой проблемы, объединяя линейную память резервуара с нелинейным резервуаром, использующим резидентные ортогональные связи по временной оси для повышения долгосрочной передачи сигнала. ## Метод ResRMNs основываются на идее совмещения линейного резервуара с нелинейным резервуаром. Линейный резервуар обеспечивает широкую разнообразию внутри системы, в то время как нелинейный резервуар с помощью ортогональных связей по временной оси улучшает долгосрочную передачу информации. Эта конфигурация позволяет сети эффективно обрабатывать задачи, требующие высокой точности в долгосрочной зависимости. Архитектура ResRMNs включает в себя несколько ключевых компонентов: линейный резервуар, нелинейный резервуар с ортогональными связями и выходной слой. Методы линейной стабильности используются для исследования динамики состояний резервуара. Эксперименты проводятся на различных наборах данных, включая временные ряды и задачи классификации пикселей. ## Результаты В ходе экспериментов на временных рядах и задачах классификации пикселей ResRMNs показали высокую точность и стабильность. Они существенно превосходят другие модели RC в области долгосрочной передачи сигналов и точности классификации. Использовались различные настройки для ортогональных связей в нелинейном резервуаре, чтобы оптимизировать результаты. Эти результаты подтверждают эффективность ResRMNs в решении задач обработки временных рядов и дальнейшее исследование возможностей этой модели. ## Значимость ResRMNs могут применяться в различных областях, таких как предсказание временных рядов, обработка сигналов и глубокое обучение с долгосрочными зависимостями. Их преимущество в том, что они обеспечивают более стабильную и точную обработку данных в задачах, требующих долгосрочной зависимости. Это делает их полезными для приложений в различных сферах, таких как прогнозирование, робототехника и анализ

Annotation:

We introduce a novel class of untrained Recurrent Neural Networks (RNNs) within the Reservoir Computing (RC) paradigm, called Residual Reservoir Memory Networks (ResRMNs). ResRMN combines a linear memory reservoir with a non-linear reservoir, where the latter is based on residual orthogonal connections along the temporal dimension for enhanced long-term propagation of the input. The resulting reservoir state dynamics are studied through the lens of linear stability analysis, and we investigate d...

ID: 2508.09925v1 cs.LG, cs.AI, I.2.6

arXiv PDF

Показано 11 - 18 из 18 записей