📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Garud Iyengar, Yu-Shiou Willy Lin, Kaizheng Wang
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Simulation of complex systems originated in manufacturing and queuing applications. It is now widely used for large-scale, ML-based systems in research, education, and consumer surveys. However, characterizing the discrepancy between simulators and ground truth remains challenging for increasingly complex, machine-learning-based systems. We propose a computationally tractable method to estimate the quantile function of the discrepancy between the simulated and ground-truth outcome distributions....
Авторы:
Elliot L. Epstein, John Winnicki, Thanawat Sornwanee, Rajat Dwaraknath
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Large language models (LLMs) excel at numerical estimation but struggle to
correctly quantify uncertainty. We study how well LLMs construct confidence
intervals around their own answers and find that they are systematically
overconfident. To evaluate this behavior, we introduce FermiEval, a benchmark
of Fermi-style estimation questions with a rigorous scoring rule for confidence
interval coverage and sharpness. Across several modern models, nominal 99\%
intervals cover the true answer only 65\% ...
Авторы:
Hyung Gyu Rho
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Modern preference alignment techniques, such as Best-of-N (BoN) sampling,
rely on reward models trained with pairwise comparison data. While effective at
learning relative preferences, this paradigm fails to capture a signal of
response acceptability, leaving systems vulnerable to selecting the least bad
of many unacceptable options. This is particularly problematic for hard
prompts, where the risk of such false acceptances increases with the number of
samples. In this paper, we address this cri...
Авторы:
Kieran Drury, Martine J. Barons, Jim Q. Smith
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Many Bayesian network modelling applications suffer from the issue of data
scarcity. Hence the use of expert judgement often becomes necessary to
determine the parameters of the conditional probability tables (CPTs)
throughout the network. There are usually a prohibitively large number of these
parameters to determine, even when complementing any available data with expert
judgements. To address this challenge, a number of CPT approximation methods
have been developed that reduce the quantity an...
📄 A Generalized Genetic Random Field Method for the Genetic Association Analysis of Sequencing Data
2025-08-20Авторы:
Ming Li, Zihuai He, Min Zhang, Xiaowei Zhan, Changshuai Wei, Robert C Elston, Qing Lu
## Контекст
В последние годы высокопроизводительные технологии последовательного секвенирования (high-throughput sequencing) стали доступными для изучения влияния широкого спектра последовательных вариаций на развитие сложных гуманных заболеваний. Современные аналитические методы для работы с высокомерной последовательной данной остаются трудными, но необходимы для раскрытия новых генетических вариантов, включая редкие, которые могут привести к заболеваниям. Одним из основных вызовов является статистический анализ высокомерных данных, в том числе генетических, для обнаружения таких вариантов.
## Метод
Мы предлагаем новую модель генетического случайного поля (GGRF) для анализа генетических суспертиров в последовательных данных. Метод основывается на фреймворке статистики регрессии (generalized estimating equations) и позволяет анализировать различные типы последовательных вариантов, включая редкие. Метод не требует предварительного установления порогов для редких вариантов и может обрабатывать различные типы характеров заболеваний (например, квантитативные и бинарные показатели). Основное преимущество GGRF заключается в его гибкости и точности при работе с редкими вариантами, которые могут иметь разные эффекты на заболевание. Также GGRF имеет хорошую асимптотическую свойству, что делает его удобным для использования даже на небольших объемах данных.
## Результаты
Мы проводили симуляционные испытания для сравнения GGRF с одной из самых популярных моделей — SKAT (Sequence Kernel Association Test). Результаты показали, что GGRF обеспечивает значительно более высокую силу обнаружения вариантов, особенно когда редкие варианты играют ключевую роль в генетической этиологии заболевания. Мы также применили GGRF к реальным данным из исследования Dallas Heart Study. Эти данные позволили нам выявить ассоциации двух генов (ANGPTL3 и ANGPTL4) с растворимыми триглицеридами в крови, что подтвердило эффективность метода в практических применениях.
## Значимость
Метод GGRF может быть применен в различных областях генетического исследования, включая работу с редкими генетическими вариантами, которые могут привести к развитию гуманных заболеваний. Он имеет значительные преимущества в том, что не требует предварительной настройки порогов для редких вариантов и может обрабатывать разнообразные типы данных. Этот подход может способствовать раскрытию новых генетических механизмов, способствующих развитию заболеваний, и помочь в разработке новых терапевтических методов.
## Выводы
Мы предложили GGRF — новую модель для анализа генетических вариантов в последовательных данных, которая показала свою эффективность в сравнении с одной из лучших
Annotation:
With the advance of high-throughput sequencing technologies, it has become
feasible to investigate the influence of the entire spectrum of sequencing
variations on complex human diseases. Although association studies utilizing
the new sequencing technologies hold great promise to unravel novel genetic
variants, especially rare genetic variants that contribute to human diseases,
the statistical analysis of high-dimensional sequencing data remains a
challenge. Advanced analytical methods are in gr...