📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 WGAST: Weakly-Supervised Generative Network for Daily 10 m Land Surface Temperature Estimation via Spatio-Temporal Fusion

2025-08-12

Авторы:

Sofiane Bouaziz, Adel Hafiane, Raphael Canals, Rachid Nedjai

#### Контекст Ускоренная городского типа, климатические изменения и напряжение в сельском хозяйстве повышают потребность в точном и временном мониторинге окружающей среды. Земляной температура поверхности (LST) является ключевой переменной в этой области и извлекается при помощи дальнего зондирования. Однако существует торговля между пространственной и временной разрешенностью систем дальнего зондирования. Хотя методы фузирования пространственно-временных данных предлагают быстрые решения, малоизвестно о разработке методов для оценки дневной ЛСТ с разрешением 10 м. В данном исследовании предлагается WGAST — с WEAKLY SUPERVISED GENERATIVE NETWORK для оценки дневной ЛСТ на 10 м с помощью спектрально-временного слияния данных Terra MODIS, Landsat 8 и Sentinel-2. Это первый полностью глубокий фреймворк для этой задачи. #### Метод WGAST использует кондыциональную сеть генеративной адверсарной архитектуры, которая состоит из четырёх этапов: извлечения признаков, слияния, реконструкции LST и сглаживания шума. На первом этапе используется набор энкодеров для извлечения многоуровневых латентных представлений входных данных. На втором этапе эти представления объединены с помощью механизма косинусной сходства, нормализации и временного аттенционного механизма. На третьем этапе эти объединённые признаки декодируются в высокорезольвентные LST, после чего используется Гауссовский фильтр для сглаживания высокочастотного шума. Обучение проводится на основе уязвимого стратегии, основывающейся на физических принципах среднего значения и усиленной отзывчивостью на квадратные патчи PatchGAN дискриминатором. #### Результаты В экспериментах, проведённых на специально созданных датасетах, WGAST показал существенную выгоду по сравнению с существующими методами. На эталонных данных он уменьшил RMSE на 17.18% и увеличил SSIM на 11.00% по сравнению с лучшим базовым решением. Также WGAST продемонстрировал высокую устойчивость к облачным источникам и в точности распознавал тонкие термальные паттерны, как показал сравнение с 33 основными станциями. Эти результаты подтверждают эффективность WGAST в решении задачи оценки 10 метровых десятиметровых ЛСТ. #### Значимость WGAST может применяться в различных областях, включая климатическую моделирование, сельское хозяйство и системы мониторинга здоровья окружающей среды. Его основные преимущества заключаются в высокой точности, возможности работы с отсутствующими данными и высоком разрешении. Это могло бы способствовать повышению качества моделей стохастической климатической д

Annotation:

Urbanization, climate change, and agricultural stress are increasing the demand for precise and timely environmental monitoring. Land Surface Temperature (LST) is a key variable in this context and is retrieved from remote sensing satellites. However, these systems face a trade-off between spatial and temporal resolution. While spatio-temporal fusion methods offer promising solutions, few have addressed the estimation of daily LST at 10 m resolution. In this study, we present WGAST, a Weakly-Sup...

ID: 2508.06485v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Extending Foundational Monocular Depth Estimators to Fisheye Cameras with Calibration Tokens

2025-08-11

Авторы:

Suchisrit Gangopadhyay, Jung-Hee Kim, Xien Chen, Patrick Rim, Hyoungseob Park, Alex Wong

## Контекст Монокулярные глубинные оценщики (Monocular Depth Estimators, FMDEs) — одна из ключевых технологий в области глубинной оценки, обладающих высокой точностью при использовании кадров в перспективной камеры. Однако, при переходе к камерам с фишей, эти методы чувствительны к ковариатному сдвигу, вызванному изменениями калибровочных параметров (на примере внутренних и дисторсионных параметров). Это приводит к неточным глубинным оценкам, что ограничивает применение FMDEs в сценариях, требующих использования фишевых камер. Наша работа направлена на обеспечение универсальности FMDEs для фишевых камер без необходимости их переучивания или оптимизации. ## Метод Мы предлагаем метод, основанный на использовании **Calibration Tokens** — легковесных механизмов, которые регулируют входные данные для FMDEs, чтобы достичь алигнмента между латентными пространствами фишевых и перспективных кадров. Эти токены позволяют избежать неполадок, связанных с перекалибровкой или проекцией на каноническую систему координат, что часто приводит к потерям или артефактам. Мы используем publicly available large-scale perspective image datasets для дообучения FMDEs на фишевых кадрах, пересчитав их угловые преобразования. Наш метод является self-supervised и не требует использования фишевых данных для обучения. ## Результаты Мы проверили нашу модель на различных FMDEs и многочисленных изображениях, включая внутренние и внешние сцены. Наши результаты показывают, что подход с Calibration Tokens позволяет достичь значительных улучшений в точности глубинных оценок по сравнению с состоянием искусства (state-of-the-art). Это достигается за счет того, что мы используем только один набор токенов для оба категорий — перспективных и фишевых кадров. Это универсален достигнутый благодаря обобщающему потенциалу нашего подхода. ## Значимость Наше решение открывает путь к обобщению FMDEs для использования с фишевыми камерами в различных приложениях, таких как VR, AR, и системы автоматизированного вождения. Несмотря на то, что метод не требует специальных фишевых данных, он позволяет достичь высокой точности и повторяемости. Это может существенно сократить затраты на проектирование и развертывание систем, которым требуется обработка изображений в фишевой камере. ## Выводы Мы представили метод расширения FMDEs для работы с фишевыми камерами с помощью Calibration Tokens. Этот метод эффективен, self-supervised и не требует переучивания модели. Мы показали, что он позволяет повысить точность глубинных оценок и обеспечивает широкое применение в различных сценариях. Будущие работы будут направлены на улучшение метода для поддержки более сложных сцен и типов камер. Наш код доступен по а

Annotation:

We propose a method to extend foundational monocular depth estimators (FMDEs), trained on perspective images, to fisheye images. Despite being trained on tens of millions of images, FMDEs are susceptible to the covariate shift introduced by changes in camera calibration (intrinsic, distortion) parameters, leading to erroneous depth estimates. Our method aligns the distribution of latent embeddings encoding fisheye images to those of perspective images, enabling the reuse of FMDEs for fisheye cam...

ID: 2508.04928v2 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 A Study of Gender Classification Techniques Based on Iris Images: A Deep Survey and Analysis

2025-08-11

Авторы:

Basna Mohammed Salih Hasan, Ramadhan J. Mstafa

## Контекст Гендерная классификация — это задача определения пола человека на основе различных биометрических признаков. Она находит применение в сферах, таких как слежение, корпоративное профилирование и интерактивные системы компьютера-человек. Информация о полу человека является одним из слабых биометрических признаков, который может быть использован для установления личности. На протяжении многих лет разработаны различные методы определения пола, включая такие, как определение по лицу, отпечаткам пальцев, отпечаткам ладони, ДНК, ушам, походке и яблочку. Однако большинство методов определения пола базируются на определении лица. Яблочка, в свою очередь, является важной биометрической характеристикой, так как, по современным исследованиям, она остается практически неизменной в течение всего жизненного цикла человека. Кроме того, она является внешне видимой и неприхотливой к использованию в практических приложениях. На данный момент существуют высококачественные методы для сегментации и кодирования ирисных изображений, что облегчает выбор и извлечение признаковых векторов из текстуры ириса. Эта работа охватывает различные подходы к определению пола на основе ирисных изображений, подробно рассматривает их преимущества и недостатки. Она также выделяет проблемы и предлагает направления для будущих исследований. ## Метод В работе предлагается подробный обзор различных методов классификации пола на основе ирисных изображений. Изучаются методы, основанные на различных аспектах, таких как глубокое обучение, машинное обучение, статистические методы и т. д. Техническая часть работы включает в себя обзор представлений ирисных изображений, выбор и исследование признаков, методы классификации и оценки качества. Описывается архитектура существующих систем классификации пола, а также их особенности и ограничения. Также приводится сравнительный анализ различных подходов, указываются их достоинства и недостатки. Работа также подробно охватывает методы разделения изображений ириса на отдельные части, кодирования этих частей и их использования для классификации пола. Литературный обзор включает в себя работы, которые использовали различные биометрические признаки, в том числе ирис, для классификации пола, а также работы, которые сравнивали различные методы классификации пола. ## Результаты В ходе исследования проанализированы различные методы классификации пола на основе ирисных изображений. На основе сравнительного анализа было выделено, что глубокое обучение является одним из наиболее эффективных подходов в этой области. Было проведено исследо

Annotation:

Gender classification is attractive in a range of applications, including surveillance and monitoring, corporate profiling, and human-computer interaction. Individuals' identities may be gleaned from information about their gender, which is a kind of soft biometric. Over the years, several methods for determining a person's gender have been devised. Some of the most well-known ones are based on physical characteristics like face, fingerprint, palmprint, DNA, ears, gait, and iris. On the other ha...

ID: 2508.05246v2 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 FinWorld: An All-in-One Open-Source Platform for End-to-End Financial AI Research and Deployment

2025-08-09

Авторы:

Wentao Zhang, Yilei Zhao, Chuqiao Zong, Xinrun Wang, Bo An

**Резюме** Modern finance стремится к широкому применению AI для решения задач, таких как прогнозирование рынков, управление портфелями и квантитативная торговля. Однако существующие платформы ограничены в объеме задач, не поддерживают разноплановый многомодальный анализ и эффективное обучение и развертывание больших языковых моделей (LLM). Для решения этих проблем представлена FinWorld — открытая платформа для полного цикла работы в области финансового AI. Она объединяет в себе неоднородные финансовые данные, поддерживает различные AI-парадигмы и автоматизирует процессы разработки. Фреймворк основывается на данных из двух рынков, четырёх групп активов и более 800 миллионов точек данных. Эмпирические исследования подтвердили, что FinWorld улучшает репродуцируемость исследований, обеспечивает честный бенчмаркинг и упрощает развертывание моделей. Это делает платформу FinWorld важной компонентой для построения современных решений в финансовом AI.

Annotation:

Financial AI holds great promise for transforming modern finance, with the potential to support a wide range of tasks such as market forecasting, portfolio management, quantitative trading, and automated analysis. However, existing platforms remain limited in task coverage, lack robust multimodal data integration, and offer insufficient support for the training and deployment of large language models (LLMs). In response to these limitations, we present FinWorld, an all-in-one open-source platfor...

ID: 2508.02292v1 cs.AI, cs.LG

arXiv PDF

📄 HGTS-Former: Hierarchical HyperGraph Transformer for Multivariate Time Series Analysis

2025-08-09

Авторы:

Xiao Wang, Hao Si, Fan Zhang, Xiaoya Zhou, Dengdi Sun, Wanli Lyu, Qingquan Yang, Jin Tang

Анализ многомерных временных рядов — относительно сложная задача в AI, в связи с высокой размерностью, динамичностью и сложными взаимосвязями в данных. Для решения этой проблемы предлагается HGTS-Former, новая архитектура на основе гиперграфов и трансформеров, которая эффективно моделирует взаимосвязи между переменными в временных рядах. Алгоритм включает эмбеддинг каждого патча в токены, многоголосую самоповторяющуюся аттенцию для усиления временных паттернов и иерархические гиперграфы для агрегирования локальных характеристик и выявления зависимостей между переменными. Особенностью архитектуры является модуль EdgeToNode, который превращает гиперребра в вершины, улучшая выходные признаки. Эксперименты на двух задачах и восьми датасетах подтвердили высокую эффективность HGTS-Former в анализе многомерных временных рядов, демонстрируя его применимость и релевантность в этой области.

Annotation:

Multivariate time series analysis has long been one of the key research topics in the field of artificial intelligence. However, analyzing complex time series data remains a challenging and unresolved problem due to its high dimensionality, dynamic nature, and complex interactions among variables. Inspired by the strong structural modeling capability of hypergraphs, this paper proposes a novel hypergraph-based time series transformer backbone network, termed HGTS-Former, to address the multivari...

ID: 2508.02411v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Emergence of Fair Leaders via Mediators in Multi-Agent Reinforcement Learning

2025-08-09

Авторы:

Akshay Dodwadmath, Setareh Maghsudi

Задача установления справедливых лидеров в средах с множеством агентов, активно обсуждается в мультиагентном расширенном рейнфорсментном обучении (MARL). Традиционные Stackelberg-игры предполагают, что каждый этап игры заключается в действиях лидера, после чего следуют реакции слейвов. Однако выбор лидера может привести к несправедливости в ситуациях, где роль лидера и слейва меняется. Авторы показали, что установление лидера исходя из автоматического выделения лидера может привести к несправедливости в результатах. Для решения этой проблемы предложено интегрировать медиаторов (mediators) в среду мультиагентного лидер-слейв-мультиагентного расширенного рейнфорсментного обучения. Медиаторы могут управлять процессом действий лидеров в лидер-слейв-ситуации, где лидер выбирается на основе максимального уровня справедливости. Это решение позволяет максимизировать справедливость вознаграждений всех агентов, что приводит к справедливым результатам в целом.

Annotation:

Stackelberg games and their resulting equilibria have received increasing attention in the multi-agent reinforcement learning literature. Each stage of a traditional Stackelberg game involves a leader(s) acting first, followed by the followers. In situations where the roles of leader(s) and followers can be interchanged, the designated role can have considerable advantages, for example, in first-mover advantage settings. Then the question arises: Who should be the leader and when? A bias in the ...

ID: 2508.02421v1 cs.MA, cs.AI, cs.LG

arXiv PDF

📄 Multimodal Large Language Models for End-to-End Affective Computing: Benchmarking and Boosting with Generative Knowledge Prompting

2025-08-09

Авторы:

Miaosen Luo, Jiesen Long, Zequn Li, Yunying Yang, Yuncheng Jiang, Sijie Mai

**Резюме** В статье представлено изучение multimodal large language models (MLLMs) для задач multimodal affective computing (MAC). Эти модели объединяют различные модальности (текст, видео, аудио) в единой структуре для распознавания и интерпретации человеческих эмоций. Однако существуют проблемы: непостоянство результатов в зависимости от типа задачи и неоднозначность влияния архитектурных решений и характеристик данных на качество анализа эмоций. Авторы провели систематическую оценку современных MLLMs на различных MAC-данных, показали, как модели отличаются в плане качества и подвергли анализу условий, при которых это происходит. Также предложена новая стратегия, комбинирующая generative knowledge prompting с supervised fine-tuning. Эксперименты показали, что такой подход значительно повышает эффективность моделей в решении MAC-задач, делая его простой и эффективной для последующих исследований в этой области.

Annotation:

Multimodal Affective Computing (MAC) aims to recognize and interpret human emotions by integrating information from diverse modalities such as text, video, and audio. Recent advancements in Multimodal Large Language Models (MLLMs) have significantly reshaped the landscape of MAC by offering a unified framework for processing and aligning cross-modal information. However, practical challenges remain, including performance variability across complex MAC tasks and insufficient understanding of how ...

ID: 2508.02429v1 cs.AI, cs.LG

arXiv PDF

📄 EHSAN: Leveraging ChatGPT in a Hybrid Framework for Arabic Aspect-Based Sentiment Analysis in Healthcare

2025-08-09

Авторы:

Eman Alamoudi, Ellis Solaiman

**Резюме** В статье представлена EHSAN, первая гибридная модель для арабского аспект-базированного мнения в сфере здравоохранения. Арабский язык представляет сложности из-за богатого диалектного разнообразия и недостатка меток аспектного мнения. Разработанная модель EHSAN объединяет машинное обучение с глубоким представлением языка ChatGPT и целенаправленным корректированием человеческим рецензентом, чтобы создать полностью новый языковой ресурс в области здравоохранения. Эта модель обучена на трёх версиях данных: полностью аннотированных человеком, частично аннотированных человеком и полностью подготовленных ChatGPT. Эксперименты показали, что даже с минимальными ручными корректировками модель достигает высокой точности. Меньшее количество классов аспектов также улучшало результаты. Результаты указывают на простоту и эффективность гибридного подхода в создании семантических моделей для арабского языка в здравоохранении. Будущие работы будут направлены на улучшение модели пространством применения и наращивании транспарентности.

Annotation:

Arabic-language patient feedback remains under-analysed because dialect diversity and scarce aspect-level sentiment labels hinder automated assessment. To address this gap, we introduce EHSAN, a data-centric hybrid pipeline that merges ChatGPT pseudo-labelling with targeted human review to build the first explainable Arabic aspect-based sentiment dataset for healthcare. Each sentence is annotated with an aspect and sentiment label (positive, negative, or neutral), forming a pioneering Arabic dat...

ID: 2508.02574v1 cs.CL, cs.AI, cs.LG, cs.SI

arXiv PDF

📄 CAMA: Enhancing Mathematical Reasoning in Large Language Models with Causal Knowledge

2025-08-09

Авторы:

Lei Zan, Keli Zhang, Ruichu Cai, Lujia Pan

**Резюме** Несмотря на выдающиеся результаты во многих областях, Large Language Models (LLMs) сталкиваются с трудностями при выполнении задач, требующих сложного математического рассуждения. Это ограничение возникает из-за проблем с глубокой структурной зависимостью и недостатком явной структуры в процессе вывода. В статье предлагается **CAMA** (Causal Mathematician) — двухэтапная модель, которая внедряет в LLMs исчерпывающую структуру математической логики. В первой стадии CAMA строит **Mathematical Causal Graph (MCG)**, аккумулируя ключевую информацию из расширенного набора задач с решениями. Этот граф описывает зависимости между знаниями и их причинно-следственными отношениями. Во второй стадии CAMA адаптирует MCG к конкретной задаче, используя выбранные примеры для дополнительной оптимизации. Результаты экспериментов показали, что CAMA улучшает производительность LLMs на задачах математического анализа, демонстрируя преимущество структурированного подхода над неструктурированным. Также оказалось, что учёт ассимметричных связей в графе способствует более существенным улучшениям по сравнению с использованием только симметричных связей.

Annotation:

Large Language Models (LLMs) have demonstrated strong performance across a wide range of tasks, yet they still struggle with complex mathematical reasoning, a challenge fundamentally rooted in deep structural dependencies. To address this challenge, we propose \textbf{CA}usal \textbf{MA}thematician (\textbf{CAMA}), a two-stage causal framework that equips LLMs with explicit, reusable mathematical structure. In the learning stage, CAMA first constructs the \textbf{M}athematical \textbf{C}ausal \t...

ID: 2508.02583v2 cs.AI, cs.LG

arXiv PDF

📄 Actionable Counterfactual Explanations Using Bayesian Networks and Path Planning with Applications to Environmental Quality Improvement

2025-08-09

Авторы:

Enrique Valero-Leal, Pedro Larrañaga, Concha Bielza

Развитие эффективных методов создания контрфактных объяснений является ключевым заданием в области интерпретируемости машинного обучения. Одной из проблем таких методов является зависимость от актуальных данных, что может повлечь за собой выявление конфиденциальной информации. Авторы предлагают альтернативный подход, основывающийся на использовании байесовских сетей для оценки плотности данных и планировании маршрутов для строительства контрфактных сценариев. Данный подход избегает прямого использования исходных данных, обеспечивая при этом точность и интерпретируемость. Решение проверено на синтетических и реальных данных по оценке качества жизни на уровне американских округов. Оно позволяет более эффективно изучать политики, улучшающие качество жизни, учитывая взаимосвязи между параметрами, такими как экологическое и социодемографическое качество жизни. Работа показывает преимущества этого подхода в обеспечении справедливости и конфиденциальности при принятии решений.

Annotation:

Counterfactual explanations study what should have changed in order to get an alternative result, enabling end-users to understand machine learning mechanisms with counterexamples. Actionability is defined as the ability to transform the original case to be explained into a counterfactual one. We develop a method for actionable counterfactual explanations that, unlike predecessors, does not directly leverage training data. Rather, data is only used to learn a density estimator, creating a search...

ID: 2508.02634v1 cs.AI, cs.LG

arXiv PDF

Показано 1631 - 1640 из 1687 записей