📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Clustering Approaches for Mixed-Type Data: A Comparative Study

2025-11-27

Авторы:

Badih Ghattas, Alvaro Sanchez San-Benito

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Clustering is widely used in unsupervised learning to find homogeneous groups of observations within a dataset. However, clustering mixed-type data remains a challenge, as few existing approaches are suited for this task. This study presents the state-of-the-art of these approaches and compares them using various simulation models. The compared methods include the distance-based approaches k-prototypes, PDQ, and convex k-means, and the probabilistic methods KAy-means for MIxed LArge data (KAMILA...

ID: 2511.19755v1 stat.ML, cs.LG, stat.AP, stat.ME

arXiv PDF

📄 A Honest Cross-Validation Estimator for Prediction Performance

2025-10-11

Авторы:

Tianyu Pan, Vincent Z. Yu, Viswanath Devanarayan, Lu Tian

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Cross-validation is a standard tool for obtaining a honest assessment of the performance of a prediction model. The commonly used version repeatedly splits data, trains the prediction model on the training set, evaluates the model performance on the test set, and averages the model performance across different data splits. A well-known criticism is that such cross-validation procedure does not directly estimate the performance of the particular model recommended for future use. In this paper, we...

ID: 2510.07649v1 stat.ML, cs.LG, stat.AP, stat.ME

arXiv PDF

📄 Non-Linear Model-Based Sequential Decision-Making in Agriculture

2025-09-05

Авторы:

Sakshi Arya, Wentao Lin

## Контекст Современные проблемы в сельском хозяйстве, такие как ограниченные ресурсы, изменение климата и рост численности населения, привели к необходимости развития эффективных методов управления сельскохозяйственными ресурсами. Одним из ключевых аспектов является **последовательное принятие решений** в области управления ресурсами, например, при оптимизации добавок удобрений или воды. Традиционные подходы, такие как линейные модели или техники случайных поисков, часто не учитывают специфику агротехнических задач и неэффективны в условиях неопределенности. Необходимо разработать методы, которые учитывали бы специфические характеристики сельскохозяйственных процессов и обеспечивали бы оптимальные решения с минимальными затратами ресурсов и времени. ## Метод Мы предлагаем семейство **нелинейных модели-основыных алгоритмов для последовательных решений** в сельском хозяйстве. Наш подход включает (i) **принципиальное оценивание неопределенности** и (ii) **закрытое выражение или быстро вычисляемые максимумы выгоды**. Модели учитывают характеристики отклика сельскохозяйственных систем, позволяя эффективно комбинировать эксплорацию и эксплойт критически важными ресурсами. Метод основан на теоретических границах для уменьшения **regret** (регрета) и поддерживает высокую точность при простых вычислениях. Эта модель является интерпретируемой, что позволяет легко рассуждать о результатах и принятии решений в сельском хозяйстве. ## Результаты Мы проводили эксперименты, используя симуляционные данные, которые эмулируют реальные задачи оптимизации добавок удобрений. Наши алгоритмы показали **сублинейный регрет** и получили близкие к оптимальным результаты в условиях небольшого количества наблюдений. Результаты постоянно превосходили линейные модели (например, UCB-линейная) и даже непараметрические базовые модели, такие как $k$-NN UCB. Эти результаты подтвердят эффективность нашего подхода в условиях **неопределенности** и **ограниченных данных**, где традиционные модели часто терпят неудачу. ## Значимость Наш подход имеет широкие приложения в **природоохране**, **управлении сельскохозяйственными ресурсами** и в области **искусственного интеллекта в агротехнике**. Он позволяет сделать сельское хозяйство более **данно-направленным**, **прозрачным** и **учетным**, что соответствует **Целям Общего Развития 2 (Холодное голод) и 12 (Ответственное Потребление и Производство)**. Наш подход может улучшить процессы принятия решений, уменьшить затраты ресурсов и сделать сельское

Annotation:

Sequential decision-making is central to sustainable agricultural management and precision agriculture, where resource inputs must be optimized under uncertainty and over time. However, such decisions must often be made with limited observations, whereas classical bandit and reinforcement learning approaches typically rely on either linear or black-box reward models that may misrepresent domain knowledge or require large amounts of data. We propose a family of nonlinear, model-based bandit algor...

ID: 2509.01924v1 stat.ML, cs.LG, stat.AP, stat.ME, 62P12, 91B06

arXiv PDF