📊 Статистика дайджестов
Всего дайджестов: 34123 Добавлено сегодня: 101
Последнее обновление: сегодня
Авторы:
Zhentao Zhan, Xiaoliang Xu, Jingjing Wang, Junmei Wang
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Graph Similarity Computation (GSC) is a fundamental graph related task where Graph Edit Distance (GED) serves as a prevalent metric. GED is determined by an optimal alignment between a pair of graphs that partitions each into aligned (zero-cost) and unaligned (cost-incurring) substructures. Due to NP-hard nature of exact GED computation, GED approximations based on Graph Neural Network(GNN) have emerged. Existing GNN-based GED approaches typically learn node embeddings for each graph and then ag...
Авторы:
Andrea Maurino
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Machine Learning (ML) models are being increasingly employed for credit risk evaluation, with their effectiveness largely hinging on the quality of the input data. In this paper we investigate the impact of several data quality issues, including missing values, noisy attributes, outliers, and label errors, on the predictive accuracy of the machine learning model used in credit risk assessment. Utilizing an open-source dataset, we introduce controlled data corruption using the Pucktrick library t...
Авторы:
Tianyi Chen, Mingcheng Zhu, Zhiyao Luo, Tingting Zhu
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Electronic Health Records (EHRs) enable deep learning for clinical
predictions, but the optimal method for representing patient data remains
unclear due to inconsistent evaluation practices. We present the first
systematic benchmark to compare EHR representation methods, including
multivariate time-series, event streams, and textual event streams for LLMs.
This benchmark standardises data curation and evaluation across two distinct
clinical settings: the MIMIC-IV dataset for ICU tasks (mortality...
Авторы:
Rishabh Ranjan, Valter Hudovernik, Mark Znidar, Charilaos Kanatsoulis, Roshan Upendra, Mahmoud Mohammadi, Joe Meyer, Tom Palczewski, Carlos Guestrin, Jure Leskovec
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Pretrained transformers readily adapt to new sequence modeling tasks via
zero-shot prompting, but relational domains still lack architectures that
transfer across datasets and tasks. The core challenge is the diversity of
relational data, with varying heterogeneous schemas, graph structures and
functional dependencies. In this paper, we present the Relational Transformer
(RT) architecture, which can be pretrained on diverse relational databases and
directly applied to unseen datasets and tasks w...
📄 Panorama: Fast-Track Nearest Neighbors
2025-10-04Авторы:
Vansh Ramani, Alexis Schlomer, Akash Nayar, Panagiotis Karras, Sayan Ranu, Jignesh M. Patel
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Approximate Nearest-Neighbor Search (ANNS) efficiently finds data items whose
embeddings are close to that of a given query in a high-dimensional space,
aiming to balance accuracy with speed. Used in recommendation systems, image
and video retrieval, natural language processing, and retrieval-augmented
generation (RAG), ANNS algorithms such as IVFPQ, HNSW graphs, Annoy, and MRPT
utilize graph, tree, clustering, and quantization techniques to navigate large
vector spaces. Despite this progress, A...
Авторы:
Aayush Gupta, Arpit Bhayani
#### Контекст
Современные веб-прокси, такие как NGINX, широко используются для оптимизации производительности интернет-ресурсов. Одной из ключевых задач этих систем является эффективное управление кэшем. Однако существующие методы управления кэшем, такие как метод наименее недавно использованных (LRU), часто сталкиваются с проблемами при обработке периодических потоков, разномасштабных объектов и ситуаций, когда объекты в кэше часто меняются. Эти проблемы приводят к понижению производительности и неэффективному использованию памяти. Необходимость в более гибких и эффективных стратегиях управления кэшем побудила разработку новых подходов, основанных на искусственном интеллекте и машинном обучении.
#### Метод
Для решения этой проблемы предлагается Cold-RL, новая стратегия управления кэшем, основанная на оффлайн-обучении с помощью резерентного градиентного сетевого сетевого алгоритма. Cold-RL использует ограниченный набор легковесных признаков, таких как возраст объекта, размер, число попаданий, время между появлениями, оставшийся TTL и время ответа на запрос, для принятия решений. Эти признаки эффективно захватывают ключевые аспекты характера трафика. Обучение происходит вне-живучего, используя реальные логи трафика NGINX, в которых каждое решение о выборе объекта для удаления получает награду в зависимости от его последующего использования. Требования к времени выполнения решения привели к разработке особых ограничений на производительность. Например, решение должно быть принято за менее 500 микросекунд, чтобы не влиять на общую производительность NGINX.
#### Результаты
Опытные испытания показали, что Cold-RL значительно повышает производительность кэша NGINX по сравнению с традиционными методами. На бенчмарке с 25 MB кэша, Cold-RL повысил уровень попаданий (hit ratio) с 0.1436 до 0.3538, что составляет приблизительно 146% рост по сравнению с наиболее эффективными классическими методами. На более крупных кэшах (100 MB), где LRU уже дает приемлемый результат, Cold-RL все равно повысил hit ratio на 15%. Интересно, что на больших кэшах (400 MB), Cold-RL стал сопоставим с классическими методами, достигая уровня примерно 0.918. Более того, время работы решения Cold-RL занимает менее 2% от общего времени обработки запросов, и 95-й перцентиль задержки вытеснения (eviction) остается в границах SLO.
#### Значимость
Заключенные результаты демонстрируют, что Cold-RL может быть успешно применен в средах с требованиями к высокой производительности и малым ограничениям времени. Он предлагается как более эффективно
Annotation:
Web proxies such as NGINX commonly rely on least-recently-used (LRU)
eviction, which is size agnostic and can thrash under periodic bursts and mixed
object sizes. We introduce Cold-RL, a learned eviction policy for NGINX that
replaces LRU's forced-expire path with a dueling Deep Q-Network served by an
ONNX sidecar within a strict microsecond budget. On each eviction, Cold-RL
samples the K least-recently-used objects, extracts six lightweight features
(age, size, hit count, inter-arrival time, re...