📊 Статистика дайджестов

Всего дайджестов: 34123 Добавлено сегодня: 101

Последнее обновление: сегодня

📄 GED-Consistent Disentanglement of Aligned and Unaligned Substructures for Graph Similarity Learning

2025-11-26

Авторы:

Zhentao Zhan, Xiaoliang Xu, Jingjing Wang, Junmei Wang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Graph Similarity Computation (GSC) is a fundamental graph related task where Graph Edit Distance (GED) serves as a prevalent metric. GED is determined by an optimal alignment between a pair of graphs that partitions each into aligned (zero-cost) and unaligned (cost-incurring) substructures. Due to NP-hard nature of exact GED computation, GED approximations based on Graph Neural Network(GNN) have emerged. Existing GNN-based GED approaches typically learn node embeddings for each graph and then ag...

ID: 2511.19837v1 cs.LG, cs.AI, cs.DB

arXiv PDF

📄 How Data Quality Affects Machine Learning Models for Credit Risk Assessment

2025-11-17

Авторы:

Andrea Maurino

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Machine Learning (ML) models are being increasingly employed for credit risk evaluation, with their effectiveness largely hinging on the quality of the input data. In this paper we investigate the impact of several data quality issues, including missing values, noisy attributes, outliers, and label errors, on the predictive accuracy of the machine learning model used in credit risk assessment. Utilizing an open-source dataset, we introduce controlled data corruption using the Pucktrick library t...

ID: 2511.10964v1 cs.LG, cs.AI, cs.DB

arXiv PDF

📄 Cross-Representation Benchmarking in Time-Series Electronic Health Records for Clinical Outcome Prediction

2025-10-14

Авторы:

Tianyi Chen, Mingcheng Zhu, Zhiyao Luo, Tingting Zhu

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Electronic Health Records (EHRs) enable deep learning for clinical predictions, but the optimal method for representing patient data remains unclear due to inconsistent evaluation practices. We present the first systematic benchmark to compare EHR representation methods, including multivariate time-series, event streams, and textual event streams for LLMs. This benchmark standardises data curation and evaluation across two distinct clinical settings: the MIMIC-IV dataset for ICU tasks (mortality...

ID: 2510.09159v1 cs.LG, cs.AI, cs.DB

arXiv PDF

📄 Relational Transformer: Toward Zero-Shot Foundation Models for Relational Data

2025-10-10

Авторы:

Rishabh Ranjan, Valter Hudovernik, Mark Znidar, Charilaos Kanatsoulis, Roshan Upendra, Mahmoud Mohammadi, Joe Meyer, Tom Palczewski, Carlos Guestrin, Jure Leskovec

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Pretrained transformers readily adapt to new sequence modeling tasks via zero-shot prompting, but relational domains still lack architectures that transfer across datasets and tasks. The core challenge is the diversity of relational data, with varying heterogeneous schemas, graph structures and functional dependencies. In this paper, we present the Relational Transformer (RT) architecture, which can be pretrained on diverse relational databases and directly applied to unseen datasets and tasks w...

ID: 2510.06377v1 cs.LG, cs.AI, cs.DB

arXiv PDF

📄 Panorama: Fast-Track Nearest Neighbors

2025-10-04

Авторы:

Vansh Ramani, Alexis Schlomer, Akash Nayar, Panagiotis Karras, Sayan Ranu, Jignesh M. Patel

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Approximate Nearest-Neighbor Search (ANNS) efficiently finds data items whose embeddings are close to that of a given query in a high-dimensional space, aiming to balance accuracy with speed. Used in recommendation systems, image and video retrieval, natural language processing, and retrieval-augmented generation (RAG), ANNS algorithms such as IVFPQ, HNSW graphs, Annoy, and MRPT utilize graph, tree, clustering, and quantization techniques to navigate large vector spaces. Despite this progress, A...

ID: 2510.00566v1 cs.LG, cs.AI, cs.DB

arXiv PDF

📄 Cold-RL: Learning Cache Eviction with Offline Reinforcement Learning for NGINX

2025-08-19

Авторы:

Aayush Gupta, Arpit Bhayani

#### Контекст Современные веб-прокси, такие как NGINX, широко используются для оптимизации производительности интернет-ресурсов. Одной из ключевых задач этих систем является эффективное управление кэшем. Однако существующие методы управления кэшем, такие как метод наименее недавно использованных (LRU), часто сталкиваются с проблемами при обработке периодических потоков, разномасштабных объектов и ситуаций, когда объекты в кэше часто меняются. Эти проблемы приводят к понижению производительности и неэффективному использованию памяти. Необходимость в более гибких и эффективных стратегиях управления кэшем побудила разработку новых подходов, основанных на искусственном интеллекте и машинном обучении. #### Метод Для решения этой проблемы предлагается Cold-RL, новая стратегия управления кэшем, основанная на оффлайн-обучении с помощью резерентного градиентного сетевого сетевого алгоритма. Cold-RL использует ограниченный набор легковесных признаков, таких как возраст объекта, размер, число попаданий, время между появлениями, оставшийся TTL и время ответа на запрос, для принятия решений. Эти признаки эффективно захватывают ключевые аспекты характера трафика. Обучение происходит вне-живучего, используя реальные логи трафика NGINX, в которых каждое решение о выборе объекта для удаления получает награду в зависимости от его последующего использования. Требования к времени выполнения решения привели к разработке особых ограничений на производительность. Например, решение должно быть принято за менее 500 микросекунд, чтобы не влиять на общую производительность NGINX. #### Результаты Опытные испытания показали, что Cold-RL значительно повышает производительность кэша NGINX по сравнению с традиционными методами. На бенчмарке с 25 MB кэша, Cold-RL повысил уровень попаданий (hit ratio) с 0.1436 до 0.3538, что составляет приблизительно 146% рост по сравнению с наиболее эффективными классическими методами. На более крупных кэшах (100 MB), где LRU уже дает приемлемый результат, Cold-RL все равно повысил hit ratio на 15%. Интересно, что на больших кэшах (400 MB), Cold-RL стал сопоставим с классическими методами, достигая уровня примерно 0.918. Более того, время работы решения Cold-RL занимает менее 2% от общего времени обработки запросов, и 95-й перцентиль задержки вытеснения (eviction) остается в границах SLO. #### Значимость Заключенные результаты демонстрируют, что Cold-RL может быть успешно применен в средах с требованиями к высокой производительности и малым ограничениям времени. Он предлагается как более эффективно

Annotation:

Web proxies such as NGINX commonly rely on least-recently-used (LRU) eviction, which is size agnostic and can thrash under periodic bursts and mixed object sizes. We introduce Cold-RL, a learned eviction policy for NGINX that replaces LRU's forced-expire path with a dueling Deep Q-Network served by an ONNX sidecar within a strict microsecond budget. On each eviction, Cold-RL samples the K least-recently-used objects, extracts six lightweight features (age, size, hit count, inter-arrival time, re...

ID: 2508.12485v1 cs.LG, cs.AI, cs.DB, cs.NI, C.2.4; C.4; D.4.2; I.2.6

arXiv PDF