📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 StableSleep: Source-Free Test-Time Adaptation for Sleep Staging with Lightweight Safety Rails

2025-09-05

Авторы:

Hritik Arasu, Faisal R Jahangiri

#### Введение Sleep staging — процесс классификации стадий сна на основе электроэнцефалограммы (EEG) — является ключевым компонентом диагностики сна. Однако модели, обученные на одной популяции, часто неэффективны при использовании на пациентах с разными физиологическими характеристиками или записью. Это приводит к расхождениям в классификации, что может снизить точность диагностики. #### Контекст Проблема кросс-пациентской адаптации в sleep staging становится важной в свете увеличения доступности телемедицины и ночных мониторингов. Использование моделей, обученных на одной популяции, часто приводит к неточным выводам при применении к незнакомым пациентам. Это ограничивает развертывание моделей в реальном мире. Авторы предлагают рецепт для test-time adaptation (TTA), который позволяет модели изменяться во время работы, не требуя доступа к исходным данным. #### Метод Метод StableSleep основывается на минимизации информационной индикаторной функции (entropy minimization) в сочетании с Batch-Norm statistic refresh. Два дополнительных механизма, называемых **entropy gate** и **EMA-based reset**, обеспечивают устойчивость. - **Entropy gate** приостанавливает адаптацию на ненадежных фрагментах (например, во время периодов открытых глаз). - **EMA-based reset** возвращает модель к начальному состоянию при заметном переключении. Это позволяет минимизировать снижение качества классификации во время интерактивной работы. #### Резюме Использованные данные: Sleep-EDF Expanded — набор данных с сотнями пациентов. Результаты: Модель StableSleep показала значимый выигрыш в точности классификации по сравнению с традиционными моделями. Она обеспечила высокую точность и минимальное замедление во время работы. Особо отмечено, что StableSleep требует минимум ресурсов и может работать на устройствах с низким вычислительным мощностью. #### Значимость Приложение StableSleep может быть применено в медицинских устройствах, таких как ночные мониторы для сна, чтобы повысить точность диагностики. Он может быть использован для мониторинга сна в реальном времени, даже у пациентов с нестандартными физиологическими характеристиками. #### Выводы StableSleep — первый подход, оптимизированный для стабильной и эффективной адаптации моделей sleep staging во время работы. Он обеспечивает минимальную задержку и низкое потребление ресурсов. Будущие исследования будут сфокусированы на улучшении механизмов адаптации и расширении применения на другие данные.

Annotation:

Sleep staging models often degrade when deployed on patients with unseen physiology or recording conditions. We propose a streaming, source-free test-time adaptation (TTA) recipe that combines entropy minimization (Tent) with Batch-Norm statistic refresh and two safety rails: an entropy gate to pause adaptation on uncertain windows and an EMA-based reset to reel back drift. On Sleep-EDF Expanded, using single-lead EEG (Fpz-Cz, 100 Hz, 30s epochs; R&K to AASM mapping), we show consistent gains ov...

ID: 2509.02982v1 cs.LG, cs.AI, cs.NE, q-bio.NC

arXiv PDF

📄 Metric Matters: A Formal Evaluation of Similarity Measures in Active Learning for Cyber Threat Intelligence

2025-08-28

Авторы:

Sidahmed Benabderrahmane, Talal Rahwan

## Контекст Active Learning (AL) является эффективным подходом для обучения моделей с минимальным количеством машинно-подтвержденных данных. В области Cyber Threat Intelligence (CTI), где данные часто классифицируются как "редкие и нестабильные", AL может значительно повысить точность моделей, оптимизировав выбор обучающих данных. Однако, APTs (Advanced Persistent Threats), известные своей скрытостью и необычным поведением, создают серьезные вызовы для систем обнаружения аномалий. До Top-2021, 95% всех потерь от APTs были незамеченными. Эти характеристики данных, включая высокую несбалансированность классов, делают стандартные подходы AL менее эффективными. Наша мотивация заключается в разработке метода, который адаптируется к этим уникальным характеристикам данных, улучшая конвергенцию и точность моделей. ## Метод Мы предлагаем прототип AL-based anomaly detection framework, который использует Attention-Based Autoencoder для feature-space similarity search. Этот подход использует распределенные представления для определения "normal-like" и "anomaly-like" входных значений, позволяя модели учиться с меньшим количеством данных. Мы используем функции similarity search, такие как Cosine Similarity, Euclidean Distance, и Manhattan Distance, для оценки их влияния на выбор экземпляров и эффективность предсказания. Эта архитектура обеспечивает iterative refinement decision space, позволяя модели быстрее обнаруживать аномалии и сохранять высокую точность даже с ограниченными данными. ## Результаты Мы проводим эксперименты на трех различных наборах данных: DARPA Transparent Computing APT traces, CICIDS, и SIFT. Мы сравниваем различные similarity measures, такие как Cosine Similarity и Manhattan Distance, и оцениваем их влияние на конвергенцию модели и точность обнаружения аномалий. Наши результаты показали, что Cosine Similarity обеспечивает более быструю конвергенцию, но Manhattan Distance демонстрирует высокую точность в обнаружении аномалий в ситуациях с высокой несбалансированностью классов. Эти результаты помогают понять, как выбор similarity measure может сильно повлиять на эффективность AL-based моделей в CTI. ## Значимость Наши результаты имеют значительное значение для области CTI, где сильный выбор similarity measure может значительно повысить эффективность моделей. Мы предлагаем actionable insights для выбора similarity functions в AL pipelines, которые могут быть использованы для борьбы с APTs и другими классами аномалий. Этот подход показывает потенциал для улучшения label efficiency и обнаружения аномалий в различных CTI-системах. ## Выводы Наше исследование показывает, что выбор similarity measure в AL-based моделях имеет существенное влияние на эффективность обучения и обнаружение аномалий в CTI. Мы предлагаем более глубокое понимание того, как различные similarity measures могут быть использованы в AL pipelines, чтобы повысить точность и конвергенцию. В будущем, мы планируем расширить эти исследования, оценивая другие модели и similarity measures, чтобы улучшить наш подхо

Annotation:

Advanced Persistent Threats (APTs) pose a severe challenge to cyber defense due to their stealthy behavior and the extreme class imbalance inherent in detection datasets. To address these issues, we propose a novel active learning-based anomaly detection framework that leverages similarity search to iteratively refine the decision space. Built upon an Attention-Based Autoencoder, our approach uses feature-space similarity to identify normal-like and anomaly-like instances, thereby enhancing mode...

ID: 2508.19019v1 cs.LG, cs.AI, cs.NE

arXiv PDF

📄 Dynamic Design of Machine Learning Pipelines via Metalearning

2025-08-21

Авторы:

Edesio Alcobaça, André C. P. L. F. de Carvalho

#### Контекст Современные методы автоматизации машинного обучения (AutoML) позволили существенно сузить пробел между профессиональными и непрофессиональными пользователями в области машинного обучения. Они автоматизируют процессы выбора моделей, оптимизации гиперпараметров и инжиниринга признаков. Однако существуют значительные проблемы, такие как высокая вычислительная стоимость при использовании стандартных стратегий поиска и оптимизации, таких как Random Search, Particle Swarm Optimization и Bayesian Optimization. Эти методы часто требуют огромных ресурсов и могут привести к переобучению, особенно когда AutoML-системы исследуют большой поисковый пространств. Эта ситуация подчеркивает необходимость разработки методов, способных эффективно сузить поисковый пространство и уменьшить вычислительные затраты. #### Метод В данной работе предлагается метод мета-обучения (metalearning) для динамического дизайна поисковых пространств в AutoML-системах. Метод использует исторические знания (metaknowledge), полученные из предыдущих задач, для выбора наиболее перспективных регионов поискового пространства. Это позволяет сузить пространство и ускорить оптимизацию. Метод основывается на мета-функциональной оценке, которая помогает определить ключевые характеристики поисковых пространств. Эта архитектура обеспечивает динамическую адаптацию системы к уникальным характеристикам новых задач. Таким образом, AutoML может эффективно избегать переобучения и сократить вычислительные затраты. #### Результаты В экспериментах проводился сравнительный анализ предлагаемого метода с традиционными подходами, такими как Random Search. На тестовых наборах данных был оценен время выполнения, размер поискового пространства и точность предсказаний. Результаты показали, что предлагаемый метод уменьшил время работы Random Search на 89% и сузил поисковое пространство на 70% для препроцессоров (1.8 из 13) и на 58% для классификаторов (4.3 из 16). Это было достигнуто без значительного снижения качества предсказаний. Эксперименты также показали, что метод может эффективно адаптироваться к системе Auto-Sklearn, сузив поисковое пространство и улучшив производительность. #### Значимость Предложенный метод имеет широкие области применения в автоматизированном машинном обучении, в частности в области динамического оптимизации поисковых пространств. Основные преимущества включают уменьшение вычислительных затрат, уменьшение риска переобучения и улучшение эффективности автоматизированных систем AutoML. В будущем можно рассмотреть расширение метода для работы с более сложными задачами, такими как регрессия и рекомендательные системы. Это может сделать AutoML-системы более доступ

Annotation:

Automated machine learning (AutoML) has democratized the design of machine learning based systems, by automating model selection, hyperparameter tuning and feature engineering. However, the high computational cost associated with traditional search and optimization strategies, such as Random Search, Particle Swarm Optimization and Bayesian Optimization, remains a significant challenge. Moreover, AutoML systems typically explore a large search space, which can lead to overfitting. This paper intr...

ID: 2508.13436v1 cs.LG, cs.AI, cs.NE

arXiv PDF

📄 Structural Equation-VAE: Disentangled Latent Representations for Tabular Data

2025-08-12

Авторы:

Ruiyu Zhang, Ce Zhao, Xin Zhao, Lin Nie, Wai-Fung Lam

## Контекст **Область исследования:** Изучение глубоких генерирующих моделей для табличных данных сталкивается с проблемами воспринимаемости и адекватности полученных представлений. Табличные данные часто содержат многомерные характеристики, которые трудно интерпретировать без осознанного выделения факторов. **Проблемы:** Одна из основных проблем заключается в том, что существующие подходы либо недостаточно дискретизируют характеристики, либо не учитывают известную структуру данных. **Мотивация:** Необходимость создания модели, которая не только генерирует точные представления, но и обеспечивает прозрачность и интерпретируемость, вдохновила разработку **Structural Equation-VAE (SE-VAE).** ## Метод **Основная идея:** SE-VAE расширяет принципы вариационного автоэнкодера (VAE), внедряя методы структурных уравнений для улучшения дискретизации и восприятия. **Ключевые технические решения:** 1. **Модульная архитектура:** Интегрирует известную структуру данных, такую как группировки показателей, в модель. 2. **Латентное пространство с уровнем загрязнения:** Изолирует конфундирующие переменные, что позволяет эффективнее контролировать их влияние. 3. **Избавление от статистических регуляризаторов:** Дискретизация достигается не только с помощью регуляризаторов, но и благодаря логической структуре модели. **Архитектура:** SE-VAE состоит из нескольких модулей, каждый отвечающий за конкретный аспект данных: известная структура, латентное пространство и конфундирующие переменные. ## Результаты **Эксперименты:** Модель была протестирована на симулированных табличных наборах данных, позволяя сравнить ее с лидирующими альтернативами. **Использованные данные:** Данные были специально сконструированы для проверки факторного восстановления, интерпретируемости и устойчивости к загрязнениям. **Результаты:** - **Факторное восстановление:** SE-VAE показала высокую точность в восстановлении факторов. - **Интерпретируемость:** Её латентные представления были более ясными и логичными по сравнению с конкурентами. - **Устойчивость к загрязнениям:** Модель демонстрировала результаты, менее чувствительные к конфундирующим переменным. **Метрики:** Использовались стандартные метрики дискретизации, такие как FactorVAE и Mutual Information Gap (MIG). ## Значимость **Применение:** SE-VAE показала потенциал в областях с теоретически дисциплинированными латентными построениями, например, в социальных и биологических науках. **Преимущества:** - Надежная факторная восстановление. - Усовершенствованная прозрачность модели. - Устойчиво

Annotation:

Learning interpretable latent representations from tabular data remains a challenge in deep generative modeling. We introduce SE-VAE (Structural Equation-Variational Autoencoder), a novel architecture that embeds measurement structure directly into the design of a variational autoencoder. Inspired by structural equation modeling, SE-VAE aligns latent subspaces with known indicator groupings and introduces a global nuisance latent to isolate construct-specific confounding variation. This modular ...

ID: 2508.06347v1 cs.LG, cs.AI, cs.NE

arXiv PDF

📄 TrajEvo: Trajectory Prediction Heuristics Design via LLM-driven Evolution

2025-08-08

Авторы:

Zhikai Zhao, Chuanbo Hua, Federico Berto, Kanghoon Lee, Zihan Ma, Jiachen Li, Jinkyoo Park

## КОНТЕКСТ И ПРОБЛЕМАТИКА Прогнозирование траекторий движения объектов является фундаментальной задачей в области моделирования поведения человека, имеющей критическое значение для безопасности в таких приложениях, как социальная робототехника и навигация автономных транспортных средств. Современные подходы к решению этой задачи можно условно разделить на два класса: традиционные эвристические методы, основанные на заранее заданных правилах, и современные методы глубокого обучения. Первая категория методов, несмотря на свою вычислительную эффективность и интерпретируемость, страдает от низкой точности и плохой обобщающей способности. Эвристики, созданные экспертами, часто не способны адекватно описать сложные социальные взаимодействия и динамические сценарии, возникающие в реальных условиях. Например, заранее заданные правила движения в толпе могут не учитывать неожиданные изменения в поведении пешеходов или нестандартные ситуации на дороге. Вторая категория, методы глубокого обучения, демонстрируют значительно более высокую точность предсказаний, но имеют ряд критических недостатков. Во-первых, они требуют значительных вычислительных ресурсов, что ограничивает их применение в реальных системах, особенно на борту автономных роботов. Во-вторых, "черные ящики" нейронных сетей обеспечивают минимальную интерпретируемость результатов, что критично для безопасных систем. В-третьих, и самое важное, методы глубокого обучения демонстрируют плохую обобщающую способность на выборках, отличающихся от обучающих (out-of-distribution, OOD), что делает их непригодными для работы в нестандартных или аварийных ситуациях. Существующий разрыв между эффективностью традиционных методов и качеством методов глубокого обучения создает необходимость в новых подходах, которые бы сочетали вычислительную эффективность и интерпретируемость эвристик с обобщающей способностью современных методов. Это и является основной мотивацией для разработки представленного в статье фреймворка TrajEvo, который использует большие языковые модели для автоматического создания эвристик прогнозирования траекторий. ## ПРЕДЛОЖЕННЫЙ МЕТОД Фреймворк TrajEvo представляет собой инновационный подход к автоматизированному созданию эвристик для прогнозирования траекторий, который использует сочетание эволюционных алгоритмов и больших языковых моделей. Основная идея заключается в том, чтобы использовать морфологические и семантические возможности LLM для генерации и последующего улучшения эвристик на основе исторических данных о траекториях. Архитектура системы состоит из нескольких ключевых компонентов. Первым является генератор эвристик на основе LLM, который создает начальные эвристики в виде читаемых правил на естественном языке. Эти эвристики затем преобразуются в исполняемый код и оцениваются на наборе траекторий. Вторым важным компонентом является эволюционный алгоритм, который управляет процессом оптимизации эвристик через поколения. В рамках эволюционного процесса предложены две ключевые инновации. Первая - это Cross-Generation Elite Sampling (CGES), механизм отбора элитных решений, который обеспечивает сохранение диверсификации популяции между поколениями. В отличие от традиционных методов, которые могут терять разнообразие решений, CGES специально сохраняет не только лучшие, но и разнообразные эвристики из предыдущих поколений, что помогает избежать преждевременной сходимости и улучшает качество окончательных решений. Вторая инновация - Statistics Feedback Loop (SFL) - представляет собой механизм обратной связи, который позволяет LLM анализировать статистику работы альтернативных предсказаний. SFL собирает статистические метрики о производительности различных эвристик и предоставляет LLM краткие, но информативные отчеты. Это позволяет LLM делать обоснованные выводы о том, какие аспекты эвристик работают хорошо, а какие требуют улучшения, и соответственно модифицировать следующее поколение эвристик. Процесс оптимизации работает следующим образом: LLM генерирует начальную популяцию эвристик, каждая из которых представляет собой набор правил для прогнозирования траекторий. Затем эти эвристики оцениваются на исторических данных, после чего лучшие решения отбираются для создания следующего поколения с помощью CGES. Результаты

Annotation:

Trajectory prediction is a critical task in modeling human behavior, especially in safety-critical domains such as social robotics and autonomous vehicle navigation. Traditional heuristics based on handcrafted rules often lack accuracy and generalizability. Although deep learning approaches offer improved performance, they typically suffer from high computational cost, limited explainability, and, importantly, poor generalization to out-of-distribution (OOD) scenarios. In this paper, we introduc...

ID: 2508.05616v1 cs.LG, cs.AI, cs.NE, cs.RO

arXiv PDF

Показано 21 - 25 из 25 записей