📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 A general framework for adaptive nonparametric dimensionality reduction

2025-11-15

Авторы:

Antonio Di Noia, Federico Ravenda, Antonietta Mira

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Dimensionality reduction is a fundamental task in modern data science. Several projection methods specifically tailored to take into account the non-linearity of the data via local embeddings have been proposed. Such methods are often based on local neighbourhood structures and require tuning the number of neighbours that define this local structure, and the dimensionality of the lower-dimensional space onto which the data are projected. Such choices critically influence the quality of the resul...

ID: 2511.09486v1 stat.ML, cs.AI, cs.LG, stat.ME

arXiv PDF

📄 Embedding Trust: Semantic Isotropy Predicts Nonfactuality in Long-Form Text Generation

2025-10-29

Авторы:

Dhrupad Bhardwaj, Julia Kempe, Tim G. J. Rudner

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

To deploy large language models (LLMs) in high-stakes application domains that require substantively accurate responses to open-ended prompts, we need reliable, computationally inexpensive methods that assess the trustworthiness of long-form responses generated by LLMs. However, existing approaches often rely on claim-by-claim fact-checking, which is computationally expensive and brittle in long-form responses to open-ended prompts. In this work, we introduce semantic isotropy -- the degree of u...

ID: 2510.21891v1 cs.CL, cs.AI, cs.LG, stat.ME, stat.ML

arXiv PDF

📄 Embracing Discrete Search: A Reasonable Approach to Causal Structure Learning

2025-10-08

Авторы:

Marcel Wienöbst, Leonard Henckel, Sebastian Weichwald

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We present FLOP (Fast Learning of Order and Parents), a score-based causal discovery algorithm for linear models. It pairs fast parent selection with iterative Cholesky-based score updates, cutting run-times over prior algorithms. This makes it feasible to fully embrace discrete search, enabling iterated local search with principled order initialization to find graphs with scores at or close to the global optimum. The resulting structures are highly accurate across benchmarks, with near-perfect ...

ID: 2510.04970v1 stat.ML, cs.AI, cs.LG, stat.ME

arXiv PDF

📄 End-to-End Deep Learning for Predicting Metric Space-Valued Outputs

2025-10-01

Авторы:

Yidong Zhou, Su I Iao, Hans-Georg Müller

## Контекст Одним из основных задач регрессии является предсказание пространственно-векторных выходных данных, которые носят структурированный характер, например, вектора, матрицы или даже сети. Однако, существуют ситуации, когда выходные данные естественным образом моделируются как элементы геометрических пространств, не являющихся векторными (например, группы симметричноопределенных матриц плюс или функциональные пространства). Традиционные методы регрессии, опирающиеся на векторное пространство, не могут быть применены в таких случаях. Это создает необходимость в разработке методов, способных эффективно работать в метрических пространствах. Таким образом, задача предсказания выходных данных в метрических пространствах является важной и актуальной в многих областях, включая машинное обучение, анализ данных, геометрию и др. ## Метод Мы предлагаем **End-to-End Metric Regression (E2M)**, новую архитектуру глубокого обучения, предназначенную для решения задач регрессии в метрических пространствах. Основная идея E2M заключается в использовании **взвешенных фрактельных средних** (Fréchet means) для предсказания выходных данных. Эти взвешенные средние формируются с помощью нейронной сети, которая вычисляет веса на основе входных данных. Эти веса определяют вклад каждого элемента множества выходных данных в финальное предсказание. Таким образом, E2M позволяет гибко адаптироваться к геометрии пространства выходных данных, не прибегая к ограничивающим параметрическим моделям. Метод E2M также включает в себя регуляризацию энтропии, чтобы обеспечить устойчивость и повысить точность предсказания в условиях неопределенности. ## Результаты Мы провели обширные эксперименты с различными типами метрических пространств, включая пространство вероятностных распределений, пространство сетей и пространство симметрично определенных матриц. Мы сравнивали E2M с другими методами регрессии, включая традиционные и те, которые используют параметрические модели. Наши результаты показывают, что E2M показывает высокую точность и стабильность в предсказании выходных данных. Мы также проводили эксперименты на реальных данных, включая данные о человеческих распределениях смертности и сетях транспорта Нью-Йорка. В этих случаях E2M демонстрировал значительные преимущества по сравнению с другими методами. ## Значимость Предложенная модель E2M имеет широкие приложения в области предсказания структурированных данных, включая прогнозирование распределений, анализ сетей, моделирование геометрических объектов и др. Одним из основных

Annotation:

Many modern applications involve predicting structured, non-Euclidean outputs such as probability distributions, networks, and symmetric positive-definite matrices. These outputs are naturally modeled as elements of general metric spaces, where classical regression techniques that rely on vector space structure no longer apply. We introduce E2M (End-to-End Metric regression), a deep learning framework for predicting metric space-valued outputs. E2M performs prediction via a weighted Fr\'echet me...

ID: 2509.23544v1 stat.ML, cs.AI, cs.LG, stat.ME

arXiv PDF

📄 Statistical Methods in Generative AI

2025-09-11

Авторы:

Edgar Dobriban

## Контекст Generative Artificial Intelligence (AI) является одной из наиболее обещающих технологий, которая может оказаться ключевой для многих областей, включая компьютерное зрение, текстовый поиск, генерирование текста, генерирование изображений и звука. Однако, по умолчанию, методы generative AI не обеспечивают гарантий по отношению к корректности, безопасности, справедливости и другим свойствам. Эти свойства являются критически важными для применения generative AI в реальном мире. Statistical methods (статистические методы) могут стать мощным инструментом для улучшения надежности, качества и эффективности generative AI. Они также могут помочь в разработке интервенций и экспериментов в области AI. Наша цель — привести и обсудить существующие статистические подходы и их применение в generative AI. ## Метод Statistical methods в generative AI могут быть разделены на два основных класса: (1) методы для поддержки и оценки моделей и (2) методы для проектирования интервенций и экспериментов в AI. Например, в первом классе включены методы, такие как bootstrapping, cross-validation, и методы для оценки качества моделей. Во втором классе входят методы моделирования распределения, методы для проектирования интервенций и методы для оценки эффекта этих интервенций. Мы также рассматриваем статистические методы для понимания и улучшения data quality, такие как методы для детектирования качества и методы для оценки независимости в данных. ## Результаты Мы проводили эксперименты для оценки эффективности статистических методов в generative AI. Эксперименты проводились на различных данных, включая наборы данных для обработки естественного языка (такие как Common Crawl и Wikipedia), видео- и изображение-данные. Мы применили методы, такие как cross-validation для оценки качества моделей, bootstrapping для поддержки моделей, и методы для оценки независимости в данных. Результаты показали, что статистические методы могут значительно улучшить качество и надежность generative AI, а также обеспечить лучшую оценку интервенций и экспериментов. ## Значимость Статистические методы имеют широкие области применения в generative AI. Они могут использоваться для улучшения надежности и качества моделей, а также для проектирования эффективных интервенций и экспериментов. Кроме того, они могут быть применены для оценки качества data и для улучшения безопасности и справедливости AI-систем. Например, подходы, описанные в нашей работе, могут быть применены для поддержки генерирования текста и изображений, а также для оценки интервенций в генерировании звука. ## Выводы Мы привёл и обсудил существующие статистические подходы и их применение в generative AI. Мы также рассмотрели их преимущества и ограничения. Наша работа показывает, что статистич

Annotation:

Generative Artificial Intelligence is emerging as an important technology, promising to be transformative in many areas. At the same time, generative AI techniques are based on sampling from probabilistic models, and by default, they come with no guarantees about correctness, safety, fairness, or other properties. Statistical methods offer a promising potential approach to improve the reliability of generative AI techniques. In addition, statistical methods are also promising for improving the q...

ID: 2509.07054v1 cs.AI, cs.LG, stat.ME

arXiv PDF

📄 A U-Statistic-based random forest approach for genetic interaction study

2025-08-23

Авторы:

Ming Li, Ruo-Sin Peng, Changshuai Wei, Qing Lu

## Контекст В последние годы резко вырос роль генетических факторов в исследовании сложных траекторий развития болезней. Одним из основных заданий генетических исследований является идентификация генов, которые взаимодействуют друг с другом и с внешними факторами окружающей среды, воздействуя на развитие различных характеристик. Традиционные методы, ориентированные на идентификацию одной или нескольких синергических пар генов, были ограничены в своих возможностях, несмотря на развитие информационных технологий. Особенно сложной является задача рассмотрения множественных генов и внешних факторов в контексте их взаимодействия. Ранние работы по идентификации гено-генных и гено-окружающих взаимодействий сталкивались с проблемами, связанными с высокой динамичностью генетических данных, вычислительной сложностью и ограниченностью мощности компьютерных систем. В этой статье предлагается новый подход, основанный на U-статистике, для улучшения эффективности методов идентификации взаимодействий. ## Метод Предложенный подход, названный Forest U-Test, основывается на использовании U-статистики, которая предназначена для оценки взаимодействий генов и внешних факторов в ходе идентификации кластеров и ассоциаций. Метод использует случайные лесы (random forests) для распределения данных и использования информации о взаимодействиях в каждом кластере. В разных этапах взаимодействия используется функция U-статистики, которая оценивает значимость каждого изменения в кластере. Это позволяет сократить количество вычислений и избежать проблемы экспоненциального роста количества возможностей, которая обычно связана с генетическими исследованиями. Данный подход предлагается для использования в случаях, когда имеется большое количество данных, включая не только генетические, но и внешние факторы. ## Результаты Для проверки эффективности метода были проведены симуляционные эксперименты и исследования на реальных данных. В результате проведенных экспериментов была продемонстрирована значительная преуспетьность Forest U-Test по сравнению с другими существующими методами. Например, в симуляционных исследованиях, проведенных на генетических данных, метод показал значительно более высокую точность в идентификации взаимодействий, чем уже существующие методы. Также, в приложении к исследованию зависимости от каннабиса (CD) на основе данных из трех независимых исследований из Study of Addiction: Genetics and Environment, была выявлена значимая комбинированная ассоциация с p-value меньше 0.001. Эти результаты были подтверждены в двух других независи

Annotation:

Variations in complex traits are influenced by multiple genetic variants, environmental risk factors, and their interactions. Though substantial progress has been made in identifying single genetic variants associated with complex traits, detecting the gene-gene and gene-environment interactions remains a great challenge. When a large number of genetic variants and environmental risk factors are involved, searching for interactions is limited to pair-wise interactions due to the exponentially in...

ID: 2508.14924v1 q-bio.GN, cs.AI, cs.LG, stat.ME

arXiv PDF