📚 Саммари научных статей из arXiv

Найдено 14827 результатов по запросу 'cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 35039 Добавлено сегодня: 432

Последнее обновление: сегодня

📄 MASteer: Multi-Agent Adaptive Steer Strategy for End-to-End LLM Trustworthiness Repair

2025-08-13

Авторы:

Changqing Li, Tianlin Li, Xiaohan Zhang, Aishan Liu, Li Pan

#### Контекст Large Language Models (LLMs) становятся все более важными для решения различных задач, но столкнулись с проблемами, связанными с надежностью и доверием к результатам. Ошибки, связанные с предрассудками, ошибками в логике и несоответствиями фактов, остаются значительной проблемой. Обычные подходы, такие как supervised fine-tuning (SFT) и reinforcement learning with human feedback (RLHF), требуют больших затрат на время и ресурсы, что делает их менее эффективными для быстрого и гибкого использования. Другие подходы, такие как prompt engineering, либо недостаточно устойчивы, либо не могут масштабироваться для сложных сценариев. Репрезентационное обучение, которое использует внедрение целевых векторов для управления поведением модели, представляет собой легковесный и не требующий обучения подход. Тем не менее, существующие решения ограничиваются фиксированными стратегиями и не поддерживают автоматизацию и адаптацию. Мы предлагаем MASteer, первый полностью адаптивный фреймворк для ремонта надежности LLMs, который автоматизирует и оптимизирует процесс ремонта надежности. #### Метод MASteer состоит из двух основных компонентов: AutoTester и AutoRepairer. AutoTester является многоагентной системой, которая генерирует разнообразные, высококачественные сэмплы для тестирования и настройки модели. Эти сэмплы создаются с учетом различных сценариев и потребностей разработчиков. AutoRepairer, в свою очередь, создает адаптивные стратегии управления, используя анкорные векторы для автоматического выбора стратегии во время выполнения. Это делает процесс управления более гибким и автоматизированным. MASteer использует принципы representation engineering для внедрения концептуальных векторов во время выполнения, чтобы корректировать поведение модели в зависимости от контекста. Это позволяет MASteer легко адаптироваться к различным задачам и сценариям без необходимости дорогостоящих тренировочных процессов. #### Результаты Мы провели эксперименты на нескольких наборах данных, включая LLaMA-3.1-8B-Chat и Qwen-3-8B-Chat. MASteer показал существенные улучшения в метриках надежности по сравнению с текущими подходами. На LLaMA-3.1-8B-Chat, MASteer повысил производительность на 15,36%, а на Qwen-3-8B-Chat - на 4,21%. Эти результаты демонстрируют высокую эффективность MASteer в устранении проблем надежности без потери общих возможностей модели. Было также продемонстрировано, что MASteer значительно улучшает устойчивость и общую гибкость модели в различных сценариях. Эти результаты подтверждают мощь MASteer в создании легковесного, эффективного и адаптивного инструмента для ремонта надежности LLMs. #### Значимость MASteer предлагает новый подход к решению проблемы надежно

Annotation:

Large Language Models (LLMs) face persistent and evolving trustworthiness issues, motivating developers to seek automated and flexible repair methods that enable convenient deployment across diverse scenarios. Existing repair methods like supervised fine-tuning (SFT) and reinforcement learning with human feedback (RLHF) are costly and slow, while prompt engineering lacks robustness and scalability. Representation engineering, which steers model behavior by injecting targeted concept vectors duri...

ID: 2508.06963v1 cs.AI, cs.LG

arXiv PDF

📄 Can Multitask Learning Enhance Model Explainability?

2025-08-13

Авторы:

Hiba Najjar, Bushra Alshbib, Andreas Dengel

## Контекст Область применения геоинформационных технологий, в том числе спутниковой разведки, стремительно развивается, благодаря появлению богатого спектра типов данных, от сегментации и классификации до регрессии. Однако, несмотря на высокую точность современных многомодальных моделей, их транспарентность и интерпретируемость остаются серьезными проблемами. Эти проблемы вносят значительные трудности в проверку моделей и их применение в решении реальных задач. Многозадачное обучение (multitask learning) предлагается как потенциальное решение, позволяя моделям не только выполнять целевую задачу, но также проводить дополнительные задачи, обеспечивая естественный механизм объяснения своего поведения. ## Метод Методология основывается на использовании дополнительных модалей не только как исходных входов, но и как дополнительных целей для одновременного обучения модели. Например, при многомодальном классификационном задании может быть добавлена задача регрессии, оценивающая определенный аспект данных. Такая модель не только разделяет классы, но и делает прогнозы на основе вторичной модальности, точностью которой можно оценивать производительность. Архитектура заключается в модификации обычных моделей, добавив дополнительные выходы, которые отвечают за подзадачи, чтобы повысить интерпретируемость. ## Результаты Эксперименты проводились на трех различных датасетах: для сегментации, классификации и регрессии. Многозадачная модель показала сходные или лучшие результаты по сравнению с базовыми многомодальными моделями, не требуя дополнительных входных данных для работы. Более того, ошибки в основной задаче (например, классификации) объяснялись с помощью задач-подмасштабов, что улучшило понимание модели. Например, в сегментации, модель выполняла классическую задачу, при этом проводила прогнозы о размере объектов, способствуя пониманию результатов. ## Значимость Результаты имеют значительное значение для развития интерпретируемых моделей в задачах, требующих особый акцент на точности и полноте. Многозадачное обучение позволяет не только повысить производительность, но и обеспечивать наглядные объяснения, что важно для принятия решений в сферах, таких как средства сохранения окружающей среды, геодезия и мониторинг патологий на карты. Этот подход также снижает зависимость от дополнительных данных для моделирования, что экономично и удобно в реальных условиях. ## Выводы Данная работа демонстрирует, что многозадачное обучение может значительно повысить интерпретируемость моделей, оставив производительность на базовом уровне. Будущие исследования будут уделять внимание расширению этого подхода на б

Annotation:

Remote sensing provides satellite data in diverse types and formats. The usage of multimodal learning networks exploits this diversity to improve model performance, except that the complexity of such networks comes at the expense of their interpretability. In this study, we explore how modalities can be leveraged through multitask learning to intrinsically explain model behavior. In particular, instead of additional inputs, we use certain modalities as additional targets to be predicted along wi...

ID: 2508.06966v1 cs.LG, cs.AI

arXiv PDF

📄 DSperse: A Framework for Targeted Verification in Zero-Knowledge Machine Learning

2025-08-13

Авторы:

Dan Ivanov, Tristan Freiberg, Haruna Isah

## Контекст В последние годы возрастает интерес к методам спрятанного вывода в машинном обучении, так называемому zero-knowledge machine learning (ZKML). Этот подход предполагает, что модель может делать прогнозы без прямого доступа к исходным данным, что обеспечивает конфиденциальность и безопасность. Однако существуют серьезные проблемы, связанные с проверкой корректности результатов. Традиционный подход к подтверждению результатов в ZKML — это полное циклическое проведение цикла верификации, что требует высокой вычислительной стоимости и является неэффективным. Другой проблемой является невозможность применения широкого спектра подходов и инструментов, так как многие не поддерживают требуемую сложность и прозрачность. Данная статья предлагает DSperse, модульный фреймворк для распределенного машинного обучения с тактической криптографической верификацией, который адресует эти проблемы. ## Метод DSperse предлагает модульную архитектуру для распределенного машинного обучения с использованием криптографической верификации. Фреймворк разбивает процесс вывода на сегменты, называемые "срезами" (slices), которые могут заключаться вокруг части или всего инференсного цикла. Каждый срез может быть проверен независимо с помощью криптографических проверок, чтобы обеспечить локальную целостность. Для обеспечения глобальной целостности используются механизмы аудита, репликации и экономических мотиваций. Технический подход включает в себя использование систем проверки верификации, таких как Plonk и Halo2, для настройки параметров в зависимости от требований. На основе этих функций проектируются разные варианты верификации, которые могут быть применены в различных сценариях. ## Результаты Для оценки DSperse были использованы несколько систем верификации, включая Plonk и Halo2, для проверки различных сценариев работы инференса. Отчет содержит результаты о максимальном использовании памяти, времени выполнения и поведении циклов под влиянием различных конфигураций. Например, для сценария с разбиением на срезы показано, что ресурсы могут быть эффективно распределены между разными сегментами, уменьшая общую стоимость верификации. Эксперименты показали, что DSperse может уменьшить затраты на проверку, позволяя клиентам выбирать только те сегменты, которые требуют высокой степени доверия. ## Значимость DSperse может быть применен в различных областях, где требуется гарантия корректности вывода, но при этом нужно ограничить затраты на верификацию. Например, в сфере финансовых сервисов, где необходимо подтверждение результатов без раскрытия ко

Annotation:

DSperse is a modular framework for distributed machine learning inference with strategic cryptographic verification. Operating within the emerging paradigm of distributed zero-knowledge machine learning, DSperse avoids the high cost and rigidity of full-model circuitization by enabling targeted verification of strategically chosen subcomputations. These verifiable segments, or "slices", may cover part or all of the inference pipeline, with global consistency enforced through audit, replication, ...

ID: 2508.06972v1 cs.AI, cs.CR, cs.DC, cs.LG

arXiv PDF

📄 Conformal Set-based Human-AI Complementarity with Multiple Experts

2025-08-13

Авторы:

Helbert Paat, Guohao Shen

#### Контекст Повышение качества классификационных задач через взаимодействие человека и искусственного интеллекта (Human-AI Collaboration) становится все более востребованным в современной технологической среде. Ранее исследования оптимизировали отдельно взаимодействие человека с моделью или с другими экспертами. С другой стороны, в данной работе авторы уделяют внимание выбору эксперта из пула нескольких экспертов, чтобы использовать их выводы в сочетании с набором прогнозных множеств, полученных с помощью классификатора. Эта адаптивная модель взаимодействия позволяет лучше использовать сильные стороны каждого эксперта, учитывая специфику каждой конкретной задачи. #### Метод Авторы предлагают метод, основанный на идее "конформальных множеств" (conformal sets) для выбора экспертов из разнообразного пула. Метод использует подход жадного выбора (greedy algorithm), чтобы выбирать подмножество экспертов для каждой конкретной задачи. Конформальные множества позволяют оценивать достоверность прогнозов каждого эксперта и выбирать те, которые дают более точные и надежные выводы. Эта стратегия работает с целью повысить точность и эффективность взаимодействия человека с несколькими экспертами. Данный подход демонстрирует, как можно адаптировать выбор экспертов в зависимости от характера каждой конкретной задачи классификации. #### Результаты В экспериментах использовались данные из CIFAR-10H и ImageNet-16H, демонстрирующих реальные прогнозы экспертов. Авторы сравнили свой подход с традиционными методами выбора экспертов. Результаты показали, что использование конформальных множеств для выбора подмножества экспертов приводит к значительному повышению точности классификации. Алгоритм, предложенный в работе, показал значительное повышение качества в сравнении с базовыми методами, в том числе в ситуациях, когда не все эксперты в пуле дают точные прогнозы. #### Значимость Предложенный подход имеет широкое применение в системах поддержки решений, где необходима высокая точность в классификации. Он может быть применен в медицине, юриспруденции, технической поддержке и других областях, где взаимодействие человека с несколькими экспертами критически важно. Преимущество этого подхода заключается в том, что он позволяет адаптировать выбор экспертов под специфику каждой конкретной задачи, что увеличивает точность и эффективность взаимодействия. #### Выводы Работа доказывает, что выбор подмножества экспертов, основанный на конформальных множествах, может значительно повысить качество классификации в сравнении с базовыми методами. Будущие исследования могут направляться на уточнение алгоритмов вы

Annotation:

Decision support systems are designed to assist human experts in classification tasks by providing conformal prediction sets derived from a pre-trained model. This human-AI collaboration has demonstrated enhanced classification performance compared to using either the model or the expert independently. In this study, we focus on the selection of instance-specific experts from a pool of multiple human experts, contrasting it with existing research that typically focuses on single-expert scenarios...

ID: 2508.06997v1 cs.LG, cs.AI, cs.HC, cs.MA

arXiv PDF

📄 Consensus-based Decentralized Multi-agent Reinforcement Learning for Random Access Network Optimization

2025-08-13

Авторы:

Myeung Suk Oh, Zhiyao Zhang, FNU Hairi, Alvaro Velasquez, Jia Liu

## Контекст В современном мире, где беспроводные устройства взаимодействуют в узкозапростоватых сетях, становится важной задачей оптимизация сетевого доступа, чтобы обеспечить постоянное подключение и высокую скорость передачи данных. Одной из ключевых стратегий является рандомный доступ (RA), который предназначен для обеспечения эффективной обработки непредсказуемого трафика с различных устройств. Однако существуют значительные затруднения в разработке эффективных протоколов для управления доступом к сети, так как необходимо сбалансировать минимизацию коллизий и обеспечение справедливости в передаче данных. Ранее были предложены многоагентные методы глубокого обучения (MARL) с централизованным обучением и децентрализованной исполнением (CTDE) для решения этой задачи. Однако эти методы требуют значительного объема информационных данных для обучения, что может оказаться неэффективным в реальных сетях. Наша мотивация заключается в разработке децентрализованного метода, который уменьшает нагрузку на сеть, но при этом обеспечивает эффективность в управлении доступом к сети. ## Метод Мы предлагаем децентрализованную машинное обучение с несколькими агентами (MARL), где каждое устройство в сети является отдельным агентом, который работает независимо и предпринимает решения на основе локальной информации. Наша методология основывается на архитектуре актера-критика (AC), где каждый агент обучается своим поведению в индивидуальном порядке. Чтобы уменьшить объем передаваемых данных, мы предлагаем обмен только локальными наградами между устройствами. Это позволяет уменьшить количество информации, необходимого для синхронизации сети. Мы также привносим теоретическую базу для доказательства глобального сходимости нашей модели, которая гарантирует высокую производительность в рандомном доступе. ## Результаты Мы провели эксперименты на моделировании сетевого доступа с рандомным доступом, используя разные базы данных и настройки. Наши результаты показывают, что наш метод по сравнению с базовыми моделями с централизованным обучением дает значительное повышение эффективности в плане коллизий и справедливости в передаче. Мы также проверили нашу модель в разных сетевых условиях, включая сети с высоким трафиком и многочисленными устройствами. Результаты показали, что наша децентрализованная модель демонстрирует повышенную скорость реакции и стабильность в сравнении с другими алгоритмами. ## Значимость Наш алгоритм может быть применен в различных областях, где необходимо эффективное управление доступом к сети, например, в коммуникационных сетях

Annotation:

With wireless devices increasingly forming a unified smart network for seamless, user-friendly operations, random access (RA) medium access control (MAC) design is considered a key solution for handling unpredictable data traffic from multiple terminals. However, it remains challenging to design an effective RA-based MAC protocol to minimize collisions and ensure transmission fairness across the devices. While existing multi-agent reinforcement learning (MARL) approaches with centralized trainin...

ID: 2508.07001v1 cs.NI, cs.AI, cs.LG

arXiv PDF

📄 Neural Channel Knowledge Map Assisted Scheduling Optimization of Active IRSs in Multi-User Systems

2025-08-13

Авторы:

Xintong Chen, Zhenyu Jiang, Jiangbin Lyu, Liqun Fu

## Контекст Современные сети связи сталкиваются с вопросами повышения эффективности использования ресурсов, улучшения качества обслуживания и снижения задержек. Одним из актуальных решений является использование Intelligent Reflecting Surfaces (IRSs), которые могут динамически изменять распространение сигналов для оптимизации системной производительности. Однако IRSs сталкиваются с рядом проблем, включая высокую сложность задач распределения каналов в многопользовательских системах, необходимость точного канального моделирования и снижения трафика при передаче данных. Недостаточное понимание этих проблем приводит к затруднениям в оптимальном использовании IRSs в реальных сетях. ## Метод Разработанное решение основывается на использовании Neural Channel Knowledge Map (CKM), который активно использует исторические данные о каналах и пропускной способности, связанные с положениями пользователей. Для точного прогнозирования характеристик канала и производительности сети развиты две различные сети: LPS-Net и SE-Net. LPS-Net предсказывает статистические характеристики мощности сигнала, а SE-Net — предсказывает эргодическую пропускную способность. Также предложен алгоритм Stable Matching-Iterative Balancing (SM-IB), который эффективно решает задачу многопользовательской задачи распределения каналов. ## Результаты Использованные эксперименты показали, что предложенный подход существенно повышает точность прогнозирования канала и производительности сети. На основе исторических данных, таких как положение пользователей и их параметры канала, прогнозирование производительности IRSs улучшилось, что позволяет быстрее и эффективнее принимать решения о распределении ресурсов. Также SM-IB-алгоритм эффективно сокращает сложность системы и достигает близкой к оптимальной производительности. ## Значимость Решение предлагает значительные преимущества для сетей связи, включая увеличение пропускной способности, сокращение задержек и улучшение качества обслуживания. Это может быть применено в сценариях, таких как 5G/6G-сети, и для улучшения общей эффективности систем. Благодаря использованию DNNs и глубокого обучения, этот подход может быть применен в различных сценариях с многопользовательскими сетями, где необходима высокая скорость и точность процессов оптимизации канала. ## Выводы Разработанный подход с Neural CKM и SM-IB-алгоритмом продемонстрировал свою эффективность в решении ключевых задач в многопользовательских IRS-системах. Будущие исследования будут направлены на улучшение точности прогнозирования, расширение применений к более сложным сетевым сценариям и исследование способов дальнейшего уменьшения сложности распределения каналов

Annotation:

Intelligent Reflecting Surfaces (IRSs) have potential for significant performance gains in next-generation wireless networks but face key challenges, notably severe double-pathloss and complex multi-user scheduling due to hardware constraints. Active IRSs partially address pathloss but still require efficient scheduling in cell-level multi-IRS multi-user systems, whereby the overhead/delay of channel state acquisition and the scheduling complexity both rise dramatically as the user density and c...

ID: 2508.07009v1 cs.IT, cs.AI, cs.LG, math.IT

arXiv PDF

📄 MultiMedEdit: A Scenario-Aware Benchmark for Evaluating Knowledge Editing in Medical VQA

2025-08-13

Авторы:

Shengtao Wen, Haodong Chen, Yadong Wang, Zhongying Pan, Xiang Chen, Yu Tian, Bo Qian, Dong Liang, Sheng-Jun Huang

#### Контекст Knowledge editing (KE) является эффективным способом обновления фактического знания в больших языковых моделях без полной переучетов. Изучены текстовые и медицинские задачи QA, но решения для multimodal medical KE остаются недооцененными. В отличие от текстовых моделей, multimodal KE требует интеграции знаний с визуальным разумом для безопасного и интерпретируемого клинического принятия решений. Несмотря на важность этой области, существуют недостатки в методах и бенчмарках для ее оценки. Мы предлагаем MultiMedEdit — первую библиотеку, ориентированную на KE в multimodal medical tasks, позволяющую провести cross-paradigm evaluation и определить критерии для клинической надежности, генеральности и локальности. #### Метод MultiMedEdit состоит из сценарио-ориентированных задач, охватывающих как простые вопросы с ответами (SQuAD-like), так и рассуждения с глубоким визуальным разумом (Visual QA). Определяется многомерный трехмерный метрический подход (reliability, generality, locality) для сравнения KE моделей в различных сценариях. Метод предлагает разделение на two-stage KE и lifelong KE, позволяющий оценить их качество в различных политиках редактирования. Библиотека поддерживает не только обучение моделей, но и поддерживает перенос знаний при повторном редактировании. Использованы большие данные медицинских сценариев, включая как текстовые, так и визуальные, с целью провести широкую экспериментальную оценку. #### Результаты Выполнены эксперименты под различными условиями редактирования знаний (single-editing и lifelong-editing). Методы KE показали слабую generalization и неэффективность в решении задач с long-tail разделениями. Библиотека MultiMedEdit позволяет четко выявить эти проблемы и сравнивать performance в разных сценариях, включая те, когда необходимо корректировать клинически важные знания. Была проведена эффективность работы KE-парадигм с разными trade-offs между вычислительными ресурсами и скоростью редактирования. #### Значимость MultiMedEdit предоставляет широкие возможности для клинических приложений, включая обновление моделей в здравоохранении, клинические визуальные задачи и поддержку принятия решений. Библиотека предоставляет уникальный подход к KE, пригодному для решения сложных клинических задач. Результаты показали, что существуют значительные проблемы в предыдущих моделях, относящиеся к generalization и long-tail reasoning. Это позволяет значительно улучшить будущие модели и сделать их более надежными для клинических приложений. #### Выводы MultiMedEdit раскрывает недостатки и ограничения существующих KE-методов в multimodal medical tasks. Библиотека поддерживает развитие клинически надежных моделей KE, используя сценарио-ориентированные бенчмарки. Будущие исследования должны сосредоточиться на улучшении generalization и разви

Annotation:

Knowledge editing (KE) provides a scalable approach for updating factual knowledge in large language models without full retraining. While previous studies have demonstrated effectiveness in general domains and medical QA tasks, little attention has been paid to KE in multimodal medical scenarios. Unlike text-only settings, medical KE demands integrating updated knowledge with visual reasoning to support safe and interpretable clinical decisions. To address this gap, we propose MultiMedEdit, the...

ID: 2508.07022v1 cs.AI, cs.CL, cs.LG, cs.MM

arXiv PDF

📄 From Imitation to Optimization: A Comparative Study of Offline Learning for Autonomous Driving

2025-08-13

Авторы:

Antonio Guillen-Perez

## Контекст Подвижность городов в настоящее время крайне зависит от инновационных технологий, способных обеспечить безопасность, эффективность и доступность транспортных систем. Одной из ключевых задач в области автономного вождения является создание надежных и устойчивых политик прохождения маршрутов с помощью обучения на основе данных. Однако использование реальных данных для обучения в реальном времени часто оказывается небезопасным и непрактичным. Большинство алгоритмов, основанных на Behavioral Cloning (BC), сталкиваются со сложностями в задаче копирования поведения эксперта, включая неустойчивость и ошибки, ускоряющиеся в замкнутых контрольных циклах. Это выделяет необходимость в разработке более устойчивых и оптимизированных подходов для обучения политик вождения. ## Метод Для развития эффективных политик вождения предлагается модель, основанная на Behavioral Cloning (BC), которая использует трансформеры для обработки структурированных, сущность-ориентированных представлений состояния. Эта модель достигает низкого уровня имитационной потери, но не справляется с длинными горизонтами симуляций. Для улучшения устойчивости используется алгоритм Conservative Q-Learning (CQL) в качестве метода Offline Reinforcement Learning (Offline RL). CQL применяется к той же структуре представления состояния, что и BC, но добавляет консервативную функцию значений, способную обеспечить более устойчивое поведение в реальных ситуациях. Эта модель также включает в себя настраиваемую функцию награды, которая помогает агенту избегать ошибок и выходов за допустимые состояния. ## Результаты В ходе экспериментов проводилась сравнительная оценка различных вариантов BC с трансформером и CQL на основе реальных данных. Результаты показали, что CQL не только увеличивает устойчивость политик, но и существенно повышает эффективность. Например, CQL демонстрирует 3.2 раза более высокую стабильность и 7.4 раз меньшую частоту столкновений по сравнению с лучшими результатами BC на 1,000 неизвестных сценах из Waymo Open Motion Dataset. Это демонстрирует, что Offline RL значительно превосходит BC в обучении политик для длинных горизонтов вождения. ## Значимость Предлагаемый подход может быть применен в различных сценариях автономного вождения, включая дорожные системы, парковки и управление транспортом. Он обеспечивает высокую устойчивость, снижает риск столкновений и повышает эффективность в различных реальных условиях. Это открывает новые возможности для безопасного и эффективного использования автономных систем в транспортных системах. ## Выводы Результаты показали, что Offline Reinforcement Learning, особенно CQL, является к

Annotation:

Learning robust driving policies from large-scale, real-world datasets is a central challenge in autonomous driving, as online data collection is often unsafe and impractical. While Behavioral Cloning (BC) offers a straightforward approach to imitation learning, policies trained with BC are notoriously brittle and suffer from compounding errors in closed-loop execution. This work presents a comprehensive pipeline and a comparative study to address this limitation. We first develop a series of in...

ID: 2508.07029v1 cs.LG, cs.AI, cs.RO, cs.SY, eess.SY

arXiv PDF

📄 Beyond Frequency: Seeing Subtle Cues Through the Lens of Spatial Decomposition for Fine-Grained Visual Classification

2025-08-13

Авторы:

Qin Xu, Lili Zhu, Xiaoxia Cheng, Bo Jiang

## Контекст Область fine-grained visual classification (FGVC) сосредоточена на распознавании тонких, классо-специфичных черт, которые отличают одни объекты от других внутри одной категории. Эта задача требует активного мининга деталей, которые часто заключены в нетривиальных, но важных областях изображения. Несмотря на прогрессы, существующие подходы часто сталкиваются с ограничениями в динамичности и гибкости. Например, методы, основанные на преобразованиех частоты, хотя и мощны, ограничены фиксированными базисами, которые не могут адаптироваться к изображениям в зависимости от их уникальных особенностей. Эта статья описывает новый подход, SCOPE, который адресует эти ограничения, предлагая гибкую архитектуру для эффективного представления информации в пространственной области. ## Метод SCOPE, или Subtle-Cue Oriented Perception Engine, является прорывом в области FGVC, предлагая адаптивные механизмы для улучшения представительности низкоуровневых деталей и высокоуровневых семантических структур. Основоположная идея заключается в двух модулях: **Subtle Detail Extractor (SDE)** и **Salient Semantic Refiner (SSR)**. SDE ориентирован на динамическое повышение чувствительности к небольшим деталям, таким как ребра и текстуры, в начальных слоях. SSR, в свою очередь, объединяет этот подход с высокоуровневыми семантическими структурами, чтобы улучшить целостность и контекст. Модули SDE и SSR работают в рекуррентном режиме, позволяя последовательному улучшению представления. Этот подход мотивирован тем, что FGVC чувствителен к деталям, которые могут быть пропущены фиксированными базисами. ## Результаты Эксперименты проводились на четырех ключевых бенчмарках FGVC: CUB-200-2011, Stanford Cars, FGVC-Aircraft и iNaturalist. Использовались различные метрики, включая top-1 accuracy. Результаты показали, что SCOPE превосходит существующие методы, достигая новых рекордов по точности распознавания. Кроме того, анализируя вклад каждого модуля, было показано, что SDE и SSR совместно способствуют улучшению, а степень детализации и семантики в каждом модуле варьируется в зависимости от сложности изображения. ## Значимость Предлагаемый подход расширяет мощность FGVC, предлагая гибкость в обработке сложных изображений. Он применим в таких областях, как автоматический распознаватель, анализ изображений в робототехнике и медицине. Развитие динамических модулей SCOPE открывает путь для более точного распознавания в будущих исследованиях, особенно в сферах, где тонкие черты играют ключевую роль. ## Выводы В целом, SCOPE достигает новых результатов в FGVC, становясь мощным инструментом для распозна

Annotation:

The crux of resolving fine-grained visual classification (FGVC) lies in capturing discriminative and class-specific cues that correspond to subtle visual characteristics. Recently, frequency decomposition/transform based approaches have attracted considerable interests since its appearing discriminative cue mining ability. However, the frequency-domain methods are based on fixed basis functions, lacking adaptability to image content and unable to dynamically adjust feature extraction according t...

ID: 2508.06959v1 cs.CV, cs.AI

arXiv PDF

📄 WeatherDiffusion: Weather-Guided Diffusion Model for Forward and Inverse Rendering

2025-08-13

Авторы:

Yixin Zhu, Zuoliang Zhu, Miloš Hašan, Jian Yang, Jin Xie, Beibei Wang

## Контекст Forward и inverse rendering являются ключевыми технологиями для понимания и реконструкции объектов в контексте автономного вождения (AD). Однако сложные условия погоды и освещения представляют значительные проблемы для этих задач. Новые большие модели размещения (diffusion models) показали свою эффективность в обучении на 2D-признаках, но их управление остается сложным, а надежность оставляет желать лучшего. В этой работе мы предлагаем WeatherDiffusion, расширенную рамку работы на основе diffusion для forward и inverse rendering в сценах AD, охватывающих различные погодные и освещенные условия. Наше решение предназначено для точного определения материальных свойств, геометрии сцены и освещения, а также поддерживает редактирование погодных и освещенных условий с помощью прогнозируемых интринсических карт, управляемых текстовыми описаниями. ## Метод WeatherDiffusion работает на основе размещения (diffusion) и использует текстовую информацию для контроля процесса. Мы предлагаем Intrinsic Map-aware Attention (MAA), которая учитывает различные регионы исходного изображения, что позволяет повысить качество inverse rendering. Для обучения и оценки метода мы создали две высококачественные выборки данных: WeatherSynthetic (синтетическая) и WeatherReal (реальная). Метод WeatherDiffusion предлагает уникальные возможности для решения задач воздействия погоды на AD-технологии, таких как обнаружение объектов и сегментация изображений в сложных условиях. ## Результаты Мы провести небольшой эксперимент, чтобы продемонстрировать применение WeatherDiffusion к задаче forward и inverse rendering. Использовались данные из синтетической и реальной выборок. Наши результаты показали, что WeatherDiffusion значительно превосходит состояние технологии по метрикам качества и точности. Мы также провели эксперименты на реальных сценах AD, в которых метод показал высокую точность и надежность при различных условиях погоды и освещения. ## Значимость WeatherDiffusion может быть применен в различных сферах, включая автономное вождение, виртуальную реальность, моделирование информации для систем управления транспортом и другие. Метод имеет преимущества в точности, эффективности и управляемости. Мы считаем, что WeatherDiffusion может стать новым стандартом для forward и inverse rendering в AD и далее подкрепиться в области визуальных технологий для сложных сцен с различными погодными и освещенными условиями. ## Выводы WeatherDiffusion представляет собой мощный метод для forward и inverse rendering в сценах AD с разными погодными и освещенными условиями. Мы продемонстрировали его эффективность на двух выборках данных и показали преимущества по сравнению с другими методами. Наша работа может способствовать развитию технологий AD в будущем, улучшению обнаружения объектов и сегментации изображений в сложных условиях. Мы также планируем расширить моде

Annotation:

Forward and inverse rendering have emerged as key techniques for enabling understanding and reconstruction in the context of autonomous driving (AD). However, complex weather and illumination pose great challenges to this task. The emergence of large diffusion models has shown promise in achieving reasonable results through learning from 2D priors, but these models are difficult to control and lack robustness. In this paper, we introduce WeatherDiffusion, a diffusion-based framework for forward ...

ID: 2508.06982v1 cs.CV, cs.AI

arXiv PDF

1
2
1394
1395
1396
1397
1398
1482
1483

Показано 13951 - 13960 из 14827 записей