📚 Саммари научных статей из arXiv

Найдено 70 результатов по запросу 'cs.LG, stat.AP' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 DETNO: A Diffusion-Enhanced Transformer Neural Operator for Long-Term Traffic Forecasting

2025-08-30

Авторы:

Owais Ahmad, Milad Ramezankhani, Anirudh Deodhar

#### Контекст Научные исследования в области транспортных систем сталкиваются с значительными вызовами в области долгосрочного прогнозирования трафика. Одним из ключевых проблемных моментов является точность прогнозирования высокочастотных феноменов, таких как шоки, конгестальные зоны и разрывы в трафическом потоке на протяжении долгих периодов. Нейронные операторы последние годы приобрели популярность своим поverимостью моделировать трафик с помощью методов аппроксимации функций. Однако, они склонны гладко изображать трафический поток, что приводит к быстрому растущему погрешности в прогнозировании и потере высокочастотных феноменов, которые критичны для реального времени. Данная проблема требует разработки новых подходов, которые бы решали эти сложности и повышали качество прогнозов в моделях транспортных систем. #### Метод Наша разработка, Diffusion-Enhanced Transformer Neural Operator (DETNO), представляет собой инновационную модель, которая объединяет преимущества трансформерных операторов и диффузионной рефинементации. DETNO основывается на кросс-аттенционных механизмах, обеспечивающих высокую гибкость и моделированию с высоким разрешением. Для улучшения высокочастотных феноменов в трафике, мы вводим диффузионную компоненту, которая использует процесс прогрессивного денойсинга для точного восстановления высокочастотных деталей. Эта архитектура позволяет преодолеть гладкость, которая характерна для стандартных моделей, и улучшить стабильность прогнозов в течение долгих роллаутов. Таким образом, DETNO является универсальной архитектурой для решения задачи долгосрочного прогнозирования трафика. #### Результаты Мы проводили обширные эксперименты с использованием популярных датасетов, таких как PeMS и METR-LA, для оценки эффективности DETNO. Наши результаты показали, что DETNO превосходит стандартные и трансформерные модели в плане точности прогнозов на длинных роллаутах. Она эффективно восстанавливает высокочастотные феномены, такие как шоки и конгестальные зоны, и показывает значительное сокращение погрешности в прогнозировании. Эти результаты подтверждают масштабируемость DETNO и её применимость к реальному времени для моделирования трафика. #### Значимость Применение DETNO может полностью изменить подходы к долгосрочному прогнозированию трафика в транспортных системах. Её основные преимущества заключаются в точности прогнозов, улучшенной стабильности и возможности моделировать высокочастотные феномены. Это включает в себя повышение качества управления трафиком, повышение безопасности и эффективности транспортных систем. Мы видим б

Annotation:

Accurate long-term traffic forecasting remains a critical challenge in intelligent transportation systems, particularly when predicting high-frequency traffic phenomena such as shock waves and congestion boundaries over extended rollout horizons. Neural operators have recently gained attention as promising tools for modeling traffic flow. While effective at learning function space mappings, they inherently produce smooth predictions that fail to reconstruct high-frequency features such as sharp ...

ID: 2508.19389v1 cs.LG, stat.AP

arXiv PDF

📄 Mutual Information Surprise: Rethinking Unexpectedness in Autonomous Systems

2025-08-27

Авторы:

Yinsong Wang, Xiao Liu, Quan Zeng, Yu Ding

## Контекст Исследование автономных систем направлено на создание систем, которые могут принимать решения с минимальным вмешательством человека. Однако, существующие системы часто ограничены статическими групповыми методами и классическими методами оптимизации, которые не подходят для управления непредсказуемыми ситуациями. Одной из ключевых проблем является несостоятельность обнаружения и адаптации к неожиданностям, которые могут возникать во время выполнения задач. Традиционные меры неожиданности, такие как Shannon Surprise или Bayesian Surprise, позволяют обнаруживать отклонения, но не оценивают возможность системы научиться и адаптироваться. В данной работе предлагается новый подход, который переопределяет неожиданность как сигнал эпистемического роста (learning progress). Этот подход может помочь автономным системам становиться более самостоятельными и адаптивными. ## Метод Новая методология, представленная в работе, называется Mutual Information Surprise (MIS). Разработана архитектура, которая использует методы статистического анализа и машинного обучения для оценки эпистемического роста. MIS определяет неожиданность как изменение в mutual information между системными состояниями и внешними входными данными. Для того, чтобы выявить существенные изменения, разработана последовательность статистических тестов. Далее, предложена стратегия реакции MISRP, которая модифицирует процесс сбора данных и создает альтернативные пути развития для системы. Эта методология тестировалась на синтетических задачах и реальной задачей оценки динамической повреждаемости окружения. ## Результаты На синтетических задачах было показано, что MISRP приводит к более стабильному и реактивному поведению системы. Реальная задача оценки повреждаемости окружения также показала, что MISRP превосходит классические методы в прогностической точности и удовлетворяет критериям эффективного управления. Особенно заметно повышение реактивности при адаптации к непредсказуемым условиям окружения. ## Значимость Основное применение MISRP включает системы, требующие адаптации к нестандартным условиям, такие как автономные роботы, системы самостоятельного управления и системы мониторинга окружающей среды. Выделяется ряд преимуществ: лучшая реактивность к неожиданностям, увеличение прогностической точности и стабильности. Эти преимущества могут положительно сказаться на различных областях, включая robot autonomy, environmental monitoring и другие. ## Выводы Результаты показывают, что MISRP является эффективным подходом для реализации самосознательных систем, которые могут адаптироваться к неожиданностям. Будущие исследования будут направлен

Annotation:

Recent breakthroughs in autonomous experimentation have demonstrated remarkable physical capabilities, yet their cognitive control remains limited--often relying on static heuristics or classical optimization. A core limitation is the absence of a principled mechanism to detect and adapt to the unexpectedness. While traditional surprise measures--such as Shannon or Bayesian Surprise--offer momentary detection of deviation, they fail to capture whether a system is truly learning and adapting. In ...

ID: 2508.17403v1 cs.LG, stat.AP

arXiv PDF

📄 Tree-like Pairwise Interaction Networks

2025-08-23

Авторы:

Ronald Richman, Salvatore Scognamiglio, Mario V. Wüthrich

## Контекст Область исследования, связанная с моделированием взаимодействий фич в табулярных данных, является ключевой для решения проблем, таких как высокая точность прогнозирования в сегменте деятельности, например, в страховании. Несмотря на развитие методов статистического анализа и машинного обучения, возникают сложности в понимании интеракций между признаками и их вкладом в прогностическую модель. Исследователи стремятся к моделям, которые бы одновременно обеспечивали высокую точность и позволяли интерпретировать их результаты. Традиционные подходы, такие как градиентный бустинг над деревьями, эффективны, но часто неочевидны в их внутренней структуре. Другие подходы, такие как графовые сети, могут быть слишком громоздкими для работы с обычными табличными данными. Модель Tree-like Pairwise Interaction Network (PIN) предлагается как решение, которое объединяет эффективность и интерпретируемость. ## Метод PIN представляет собой изоморфическую модель взаимодействий табулярных данных, основанную на структуре дерева. Архитектура PIN включает в себя нейросеть, которая эмулирует древовидную структуру, где каждое вертикальное семейство интерфейсов между признаками управляется отдельным нейроном. Это позволяет явно отражать взаимодействия между признаками на разных уровнях сети. Использованные техники включают функции активации, широко распространенные в нейронных сетях (например, ReLU), и параметрические модели для построения взаимодействий. Для повышения скорости аппроксимации и оптимизации используются эффективные методы, такие как SHAP-вычисления, которые тесно интегрированы с архитектурой PIN. Это позволяет проводить точные интерпретации модели на уровне отдельных фич. ## Результаты Изучение PIN проводилось на запусках на данных, таких как данные от прайса автомобильных страхований во Франции. Была проведена эмпирическая оценка точности прогноза интерпретируемости в сравнении с такими моделями, как XGBoost и традиционные нейронные сети. Результаты показали, что PIN не только демонстрирует высокую точность, но и предоставляет ясную интерпретацию взаимодействий, что отсутствует у традиционных моделей. Эксперименты также показали, что PIN эффективно обрабатывает множество признаков и позволяет выявить самые важные взаимодействия. Кроме того, PIN позволяет эффективно вычислять SHAP-значения, что является ключевым преимуществом в сравнении с другими моделями. ## Значимость PIN может применяться в различных областях, где важно понимание взаимодействий между признаками, например, в страховании, финансах, и медицине. Также модель показывает преимущест

Annotation:

Modeling feature interactions in tabular data remains a key challenge in predictive modeling, for example, as used for insurance pricing. This paper proposes the Tree-like Pairwise Interaction Network (PIN), a novel neural network architecture that explicitly captures pairwise feature interactions through a shared feed-forward neural network architecture that mimics the structure of decision trees. PIN enables intrinsic interpretability by design, allowing for direct inspection of interaction ef...

ID: 2508.15678v1 stat.ML, cs.LG, stat.AP

arXiv PDF

📄 Can synthetic data reproduce real-world findings in epidemiology? A replication study using tree-based generative AI

2025-08-23

Авторы:

Jan Kapar, Kathrin Günther, Lori Ann Vallis, Klaus Berger, Nadine Binder, Hermann Brenner, Stefanie Castell, Beate Fischer, Volker Harth, Bernd Holleczek, Timm Intemann, Till Ittermann, André Karch, Thomas Keil, Lilian Krist, Berit Lange, Michael F. Leitzmann, Katharina Nimptsch, Nadia Obi, Iris Pigeot, Tobias Pischon, Tamara Schikowski, Börge Schmidt, Carsten Oliver Schmidt, Anja M. Sedlmair, Justine Tanoey, Harm Wienbergen, Andreas Wienke, Claudia Wigmann, Marvin N. Wright

#### Контекст Генерируемые с помощью искусственного интеллекта модели данных играют важную роль в решении практических проблем в области эпидемиологии, таких как защита конфиденциальности, увеличение размера выборки и уменьшение затрат на сбор данных. Несмотря на эти преимущества, многие нынешние методы генерации синтетических данных страдают недостатками качества, высокими затратами ресурсов вычислений и высокой сложностью для неэкспертных пользователей. Кроме того, существующие стратегии оценки синтетических данных не всегда напрямую отражают их статистическую полезность. Одним из ключевых вопросов является: могут ли синтетические данные верифицировать основные выводы эпидемиологического исследования? Мы предлагаем использовать алгоритм `adversarial random forests` (ARF), чтобы эффективно и просто генерировать синтетические данные в рамках эпидемиологических исследований. #### Метод Мы разработали `adversarial random forests` (ARF), алгоритм, который эффективно генерирует синтетические данные, используя решающие деревья. Этот подход характеризуется высокой скоростью и простотой использования. Мы применяем алгоритм ARF для синтеза данных эпидемиологических исследований, основываясь на данных из публикаций, рассматривающих такие показатели как антропометрия, сердечно-сосудистые заболевания, акселерометрия, одиночество, диабет и кровяное давление. Данные взяты из немецкого национального эпидемиологического исследования (NAKO), Bremen STEMI Registry U45 и Guelph Family Health Study. Для оценки качества синтеза мы сравнивали оригинальные выводы эпидемиологических исследований с результатами анализов, проведенных с использованием синтетических данных. Для дальнейшей оценки влияния того, как изменяется размер выборки и сложность данных, мы ограничивали данные только теми переменными, которые использовались в оригинальных эпидемиологических анализах. #### Результаты Мы провели кросс-валидацию синтетических данных с помощью различных эпидемиологических методов, включая описательные анализы, регрессионные модели и множественные кросс-валидации. В результате, результаты синтетических данных отражают оригинальные выводы всех первичных исследований, которые мы проверили. Даже при небольших размерах выборок и высокой сложности данных, результаты синтеза были стабильными и совпадали с результатами оригинальных исследований. Например, удалось воспроизвести результаты по изучению уровня кровяного давления, клинических показателей диабета и сердечно-сосудистых заболеваний. Мы также обнаружили, что сокращение размера выборки и предварительно разработанные перем

Annotation:

Generative artificial intelligence for synthetic data generation holds substantial potential to address practical challenges in epidemiology. However, many current methods suffer from limited quality, high computational demands, and complexity for non-experts. Furthermore, common evaluation strategies for synthetic data often fail to directly reflect statistical utility. Against this background, a critical underexplored question is whether synthetic data can reliably reproduce key findings from ...

ID: 2508.14936v1 q-bio.QM, cs.AI, cs.LG, stat.AP, stat.ML

arXiv PDF

📄 The C-index Multiverse

2025-08-22

Авторы:

Begoña B. Sierra, Colin McLean, Peter S. Hall, Catalina A. Vallejos

## Контекст Оценка дискриминационной силы моделей в задачах прогнозирования временных результатов является ключевым этапом моделирования и выбора методов. Одним из наиболее популярных показателей для этой цели является C-индекс (concordance index). Этот показатель широко используется в области прогнозирования временных результатов, особенно с появлением машинных обучающихся методов. Однако, несмотря на его популярность, существует множество вариантов реализаций C-индекса, которые могут приводить к разным результатам. Это негативно сказывается на реплицируемости исследований и сравнении моделей. Более того, различия в подходе к обработке отсутствующих значений и смещению при обработке выживаемости также влияют на C-индекс. В нашей работе мы исследуем эту сложность, названную "C-index multiverse", и предлагаем рекомендации для улучшения транспаренности и реплицируемости результатов моделирования. ## Метод Мы проводим детальный анализ различных реализаций C-индекса, доступных в R и Python, и исследуем их различия. Наша методология включает не только сравнение реализаций C-индекса, но и исследование того, как обработка отсутствующих значений и смещения в выживаемости влияют на показатель. Мы также проводим эксперименты с различными моделями прогнозирования временных результатов, включая Cox-модели, и сравниваем их показатели C-индекса на данных о болезни рака груди (breast cancer) и семи-синтетических примерах. ## Результаты Наши результаты показывают, что различия в реализациях C-индекса могут приводить к значительным отклонениям в показателе, даже если используются одинаковые данные и модели. Например, при использовании данных о болезни рака груди мы наблюдаем, что разные реализации C-индекса дают разные результаты, что может повлиять на выбор модели. На основе евристических примеров мы также показываем, что результаты могут отличаться в зависимости от того, как обрабатывается отсутствующая информация и смещение в выживаемости. ## Значимость Наше исследование показывает, что C-индекс может иметь разные реализации в разных программах, что влияет на результаты моделирования и статистического анализа. Эта ситуация может стать причиной несогласованности в результатах разных исследований. Мы разрабатываем руководство для аналитиков, помогающее им преодолевать проблемы, связанные с C-индексом, и предлагаем новые рекомендации по его использованию. Наша работа может помочь улучшить транспарентность и реплицируемость моделей в области прогнозирования временных результатов. ## Выводы Мы подтверждаем существование "C-index multiverse", где различные реализации C-индекс

Annotation:

Quantifying out-of-sample discrimination performance for time-to-event outcomes is a fundamental step for model evaluation and selection in the context of predictive modelling. The concordance index, or C-index, is a widely used metric for this purpose, particularly with the growing development of machine learning methods. Beyond differences between proposed C-index estimators (e.g. Harrell's, Uno's and Antolini's), we demonstrate the existence of a C-index multiverse among available R and pytho...

ID: 2508.14821v1 stat.ML, cs.LG, stat.AP

arXiv PDF

📄 Feature Impact Analysis on Top Long-Jump Performances with Quantile Random Forest and Explainable AI Techniques

2025-08-15

Авторы:

Qi Gan, Stephan Clémençon, Mounîm A. El-Yacoubi, Sao Mai Nguyen, Eric Fenaux, Ons Jelassi

## Контекст Оценка техники спортсменов через механические признаки стала важной задачей в спортивной аналитике. Традиционно, эксперты выделяли ключевые признаки и анализировали их с помощью физических моделей. Однако сложность человеческого тела и его движений затрудняет четкое понимание взаимосвязей между этими признаками и финальными результатами. С развитием машинного обучения и статистики, анализ данных стал востребованным инструментом в спортивных исследованиях. В данной работе используются машинные обучения для изучения механических признаков лучших показателей в прыжках в длину на чемпионатах мира. Целью является выявление наиболее важных факторов, влияющих на высокие результаты, и исследование их взаимодействия. ## Метод Для изучения влияния признаков использовалась регрессия Квантиля, конкретно Quantile Random Forest. Этот подход позволил оценивать вклад каждого признака в разные квантили целевого распределения. Для интерпретации модели использовались методы SHapley Additive exPlanations (SHAP), Partial Dependence Plots (PDPs) и Individual Conditional Expectation (ICE) plots. Эксперименты проводились на данных финалов чемпионатов мира по прыжкам в длину. Различные модели были обучены для мужчин и женщин, чтобы выявить специфику эффектов для каждой группы. ## Результаты Для мужчин, среди технических признаков, ключевой фактор для топ-10% показателей оказался угол коленя поддерживающей ноги до прыжка, при углах выше 169°. Для женщин, кроме скорости, важность признаков связана с позе при подготовке к посадке и техникой выполнения аппроксимационных шагов. Эти результаты подтверждают важность не только ускорения, но и комплекса специфичных технических аспектов для достижения высоких результатов. ## Значимость Исследование установило новый подход к анализу влияния технических признаков на спортивные результаты. Оно может быть применено для оптимизации тренировок и индивидуального подхода к спортсменам. Также, результаты могут помочь тренерам и экспертам в понимании и анализе процессов, способствующих высокому эффективности. ## Выводы Работа установила значимость специфических технических признаков в достижении высоких результатов в прыжках в длину. Будущие исследования будут направлены на расширение моделей для других видов спорта и расширение понимания взаимосвязей между техникой и финальными результатами.

Annotation:

Biomechanical features have become important indicators for evaluating athletes' techniques. Traditionally, experts propose significant features and evaluate them using physics equations. However, the complexity of the human body and its movements makes it challenging to explicitly analyze the relationships between some features and athletes' final performance. With advancements in modern machine learning and statistics, data analytics methods have gained increasing importance in sports analytic...

ID: 2508.09810v1 cs.LG, stat.AP

arXiv PDF

📄 Flow Battery Manifold Design with Heterogeneous Inputs Through Generative Adversarial Neural Networks

2025-08-14

Авторы:

Eric Seng, Hugh O'Connor, Adam Boyce, Josh J. Bailey, Anton van Beek

## Контекст Generative машинного обучения является мощным инструментом для создания и эксплорации дизайнов. Однако его применение часто ограничивается необходимостью больших выборок дизайнов и неполным пониманием факторов, которые влияют на оптимальность. Эти ограничения приводят к трудностям в моделировании и оптимизации систем. Целью данной работы является разработка систематического подхода к построению выборок для обучения генерирующих моделей машинного обучения и использование этих моделей для точечного понимания факторов, влияющих на оптимальность дизайна. На практике это должно позволить улучшить качество и надежность моделей в систематическом дизайне систем. ## Метод Разработанный подход включает следующие этапы: (i) построение выборок данных, в которых каждый объект является своеобразным, но подчиняется определенной структуре, чтобы обеспечить генерацию интерпретируемых дизайнов; (ii) развитие генерирующей модели, которая может создавать новые дизайны на основе этой выборки; и (iii) интеграция модели с Байесовским оптимизационным подходом для повышения точности и эффективности поиска оптимального решения. Данный подход рассматривается в контексте проектирования манифольда поточных батарей, где необходимо учесть ограничения пространственного расположения компонентов и оптимизировать их функциональные характеристики. ## Результаты Используя предложенный метод, был создан набор данных для генерирующей модели, содержащий типичные архетипы, но в то же время несущий внутреннюю и внешнюю разнообразность. Эта модель была интегрирована с Байесовским оптимизатором, чтобы найти оптимальные решения в пространстве возможных дизайнов. Эксперименты показали, что модель эффективно генерирует новые дизайны, включая идеальное соотношение между сложностью и простотой. Она также позволяет проводить интерпретируемую оптимизацию, учитывая ограничения и характеристики системы. ## Значимость Предложенный подход может быть применен в различных областях дизайна, где требуется оптимизировать сложные системы с множеством ограничений. Он обеспечивает более точные и надежные результаты по сравнению с традиционными методами, а также позволяет сократить время разработки и улучшить качество продукта. Особенно полезен для систем, требующих тщательного баланса между функциональностью и производительностью, например, в области энергетики и транспорта. ## Выводы Предложенный подход демонстрирует эффективность генерирующих моделей машинного обучения в разработке дизайнов систем. Он позволяет объединить интерпретируемость, точность и

Annotation:

Generative machine learning has emerged as a powerful tool for design representation and exploration. However, its application is often constrained by the need for large datasets of existing designs and the lack of interpretability about what features drive optimality. To address these challenges, we introduce a systematic framework for constructing training datasets tailored to generative models and demonstrate how these models can be leveraged for interpretable design. The novelty of this work...

ID: 2508.08863v1 cs.LG, stat.AP

arXiv PDF

📄 Trustworthy scientific inference for inverse problems with generative models

2025-08-09

Авторы:

James Carzon, Luca Masserano, Joshua D. Ingram, Alex Shen, Antonio Carlos Herling Ribeiro Junior, Tommaso Dorigo, Michele Doro, Joshua S. Speagle, Rafael Izbicki, Ann B. Lee

## Контекст Генеративные искусственные нейронные сети, такие как генеративные модели типа GAN и VAEs, показали необычайную эффективность в генерировании сложных структур данных, таких как изображения, текст и видео, основываясь на обучении с подкреплением. За последние несколько лет, эти модели были применены в различных научных областях для выполнения инверсионных задач, которые заключаются в интерпретации входных данных для вывода потенциально необратимых параметров, таких как взаимодействия частиц в физике или распределения тел в космологии. Однако существуют значительные ограничения в их использовании. Традиционные методы могут приводить к вариациям в результатах или создают недостаточно обоснованные выводы, особенно при отсутствии доступа к полной вероятностной модели. В этой работе мы предлагаем метод, который расширяет генеративные модели за пределы обычных областей использования и позволяет выполнять надежные выводы в условиях, когда полнота информации о некоторых параметрах недоступна. ## Метод Мы предлагаем **FreB** (Frequentist-Bayes), который является системой для гарантии надежности в выводе в области инверсионных задач. Метод комбинирует теории Фрегеля и Байеса, чтобы преобразовать генеративные модели в методы, которые позволяют формировать более точные интервалы для параметров. FreB работает следующим образом: он принимает входные данные и генеративную модель, а затем формирует множество возможных интерпретаций параметров, которые лучше всего соответствуют наблюдаемым данным. Это множество формируется с использованием оператора наименьшего квадрата и теоремы Байеса. На выходе получается интервал, который содержит реальные параметры в процентном соотношении, соответствующем заданной доверительной границе. Мы также предоставляем диагностические инструменты, которые позволяют отслеживать качество решения и понять, насколько модель доверенна. ## Результаты Мы провели эксперименты в нескольких научных областях, включая физику, астрономию и геологию. Наши эксперименты включали: 1. **Определение неизвестных источников данных**: мы использовали FreB для идентификации источников данных в случаях, когда данные поступали из нескольких источников, но не было наличия значительных описательных данных. 2. **Реконструкция теоретических моделей**: мы использовали FreB для разрешения конфликтов между различными теоретическими моделями, которые объясняли одни и те же наблюдения. 3. **Сокращение систематических ошибок в обсервациях**: мы применили FreB для коррекции систематических ошибок в данных, например, в случае неточного измерения времени в физи

Annotation:

Generative artificial intelligence (AI) excels at producing complex data structures (text, images, videos) by learning patterns from training examples. Across scientific disciplines, researchers are now applying generative models to ``inverse problems'' to infer hidden parameters from observed data. While these methods can handle intractable models and large-scale studies, they can also produce biased or overconfident conclusions. We present a solution with Frequentist-Bayes (FreB), a mathematic...

ID: 2508.02602v1 stat.ML, astro-ph.IM, cs.LG, stat.AP, stat.ME

arXiv PDF

📄 A semi-automatic approach to study population dynamics based on population pyramids

2025-08-09

Авторы:

Max Hahn-Klimroth, João Pedro Meireles, Laurie Bingaman Lackey, Nick van Eeuwijk Mads F. Bertelsen, Paul W. Dierkes, Marcus Clauss

## Контекст Описание и анализ динамики популяций — важный инструмент в области экологии, биологии, управления ресурсами и демографии. Распространенным инструментом для оценки состояния популяций являются визуализации, изображающие данные в виде "популяционных пирамид" — график, показывающий распределение популяции по возрасту и потенциальному потенциалу (например, число женщин и мужчин в зависимости от возраста). Однако существуют недостатки в существующих методах для автоматического классификации этих пирамид. Особенно вызовом является автоматическое определение изменений в динамике популяции на основе типов пирамид. Наша цель — разработать метод, который может автоматически классифицировать типы пирамид, определяя их связь с признаками популяции. ## Метод Мы предлагаем алгоритм-ориентированный подход к классификации популяционных пирамидов на основе анализа формы и характеристик этих пирамид. Метод основывается на анализе геометрических форм пирамид, включая нормальную, инвертированную, дельта (до triangle), цилиндр, часовую стрелку, диамант, жемчужина. Мы использовали данные из зоопарков мира за период 1970-2024 годов, описывающие динамику популяции морских млекопитающих. Алгоритм включает несколько этапов: 1. Определение классических типов пирамид (например, нормальная, инвертированная и планжер). 2. Разработка алгоритма для определения типов пирамид на основе их геометрических параметров. 3. Использование данных о динамике популяции для формирования видимой динамики в пирамидной форме. 4. Автоматическое классификационное тестирование на основе тренировочных данных. ## Результаты Мы провели эксперименты с данными из зоопарков, содержащими динамические изменения в популяциях. Алгоритм способен автоматически классифицировать пирамиды в типы (нормальная, инвертированная, дельта, часовую стрелку, диамант, жемчужина) и сопоставлять эти классы с динамикой популяции. Например, пирамид в форме часовую стрелку часто связаны с возрастанием или спады в популяции, где число женщин превосходит число мужчин. Мы также обнаружили, что пирамиды типа дельта часто соотносятся с наблюдаемыми изменениями в активности размножения. Наши результаты показали высокую точность классификации (около 85-90%) при использовании наших методов. ## Значимость Наша работа может быть применена в различных областях, в том числе в защите животных, в землеустройстве, в управлении ресурсами продовольст

Annotation:

The depiction of populations - of humans or animals - as "population pyramids" is a useful tool for the assessment of various characteristics of populations at a glance. Although these visualisations are well-known objects in various communities, formalised and algorithmic approaches to gain information from these data are less present. Here, we present an algorithm-based classification of population data into "pyramids" of different shapes ([normal and inverted] pyramid / plunger / bell, [lower...

ID: 2508.03788v1 q-bio.PE, cs.LG, stat.AP, 62P25, 62P10, I.2.1

arXiv PDF

📄 LLM-based IR-system for Bank Supervisors

2025-08-09

Авторы:

Ilias Aarab

**Резюме** В статье представлена LLM-based IR-система, разработанная для поддержки банковских надзорных органов в создании консистентных и эффективных мер. Банковские надзорные органы часто сталкиваются с проблемой учета исторических прецедентов при выработке новых мер. Проектируемая система решает эту проблему, позволяя надзорным органам получить сведения из базы данных научных работ по аналогичным случаям. Она использует множественные методы поиска, включая лексический, семантический и fuzzy set matching по модели CRR, для точного выявления наиболее подходящих документов. Система проверена с помощью Monte Carlo-метода на частично отмеченных данных, показала высокую точность и устойчивость. Использование Transformer-based Denoising AutoEncoder для тюнинга позволило достичь высоких результатов: Mean Average Precision (MAP@100) — 0.83 и Mean Reciprocal Rank (MRR@100) — 0.92. Эти показатели превышают результаты однородных моделей BM25 и BERT-подобных. Таким образом, предложенная система является эффективным инструментом для повышения качества и согласованности нормативных мер в банковском надзоре.

Annotation:

Bank supervisors face the complex task of ensuring that new measures are consistently aligned with historical precedents. To address this challenge, we introduce a novel Information Retrieval (IR) System tailored to assist supervisors in drafting both consistent and effective measures. This system ingests findings from on-site investigations. It then retrieves the most relevant historical findings and their associated measures from a comprehensive database, providing a solid basis for supervisor...

ID: 2508.02945v1 cs.IR, cs.AI, cs.LG, stat.AP, stat.CO, 68P20, 68T50, 68T05, 62P20, 91G80, H.3.3; I.2.6; I.2.7; J.1

arXiv PDF

1
2
5
6
7

Показано 61 - 70 из 70 записей