📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 InfMasking: Unleashing Synergistic Information by Contrastive Multimodal Interactions

2025-10-02

Авторы:

Liangjian Wen, Qun Dai, Jianzhuang Liu, Jiangtao Zheng, Yong Dai, Dongkai Wang, Zhao Kang, Jun Wang, Zenglin Xu, Jiang Duan

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

In multimodal representation learning, synergistic interactions between modalities not only provide complementary information but also create unique outcomes through specific interaction patterns that no single modality could achieve alone. Existing methods may struggle to effectively capture the full spectrum of synergistic information, leading to suboptimal performance in tasks where such interactions are critical. This is particularly problematic because synergistic information constitutes th...

ID: 2509.25270v1 cs.LG, cs.AI, cs.CV

arXiv PDF

📄 Annotation-Efficient Active Test-Time Adaptation with Conformal Prediction

2025-10-02

Авторы:

Tingyu Shi, Fan Lyu, Shaoliang Peng

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Active Test-Time Adaptation (ATTA) improves model robustness under domain shift by selectively querying human annotations at deployment, but existing methods use heuristic uncertainty measures and suffer from low data selection efficiency, wasting human annotation budget. We propose Conformal Prediction Active TTA (CPATTA), which first brings principled, coverage-guaranteed uncertainty into ATTA. CPATTA employs smoothed conformal scores with a top-K certainty measure, an online weight-update alg...

ID: 2509.25692v1 cs.LG, cs.AI, cs.CV, stat.ML

arXiv PDF

📄 From MNIST to ImageNet: Understanding the Scalability Boundaries of Differentiable Logic Gate Networks

2025-10-02

Авторы:

Sven Brändle, Till Aczel, Andreas Plesner, Roger Wattenhofer

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Differentiable Logic Gate Networks (DLGNs) are a very fast and energy-efficient alternative to conventional feed-forward networks. With learnable combinations of logical gates, DLGNs enable fast inference by hardware-friendly execution. Since the concept of DLGNs has only recently gained attention, these networks are still in their developmental infancy, including the design and scalability of their output layer. To date, this architecture has primarily been tested on datasets with up to ten cla...

ID: 2509.25933v1 cs.LG, cs.AI, cs.CV

arXiv PDF

📄 Optimizing Indoor Environmental Quality in Smart Buildings Using Deep Learning

2025-10-02

Авторы:

Youssef Sabiri, Walid Houmaidi, Aaya Bougrine, Salmane El Mansour Billah

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Ensuring optimal Indoor Environmental Quality (IEQ) is vital for occupant health and productivity, yet it often comes at a high energy cost in conventional Heating, Ventilation, and Air Conditioning (HVAC) systems. This paper proposes a deep learning driven approach to proactively manage IEQ parameters specifically CO2 concentration, temperature, and humidity while balancing building energy efficiency. Leveraging the ROBOD dataset collected from a net-zero energy academic building, we benchmark ...

ID: 2509.26187v1 cs.LG, cs.AI, cs.CV, 60G35, 62M10, 62P35, 65C20, 68T45, 68U10, 92C35, 92C40, 92C42, 93E10, C.2.1; C.2.4; C.3; H.2.8; H.3.4; H.3.5; I.2; I.2.4; I.2.6; I.2.11; I.4.8; I.5.1; I.5.4; I.5.1; I.5.2; I.5; J.3; K.6.1

arXiv PDF

📄 Learning to See Before Seeing: Demystifying LLM Visual Priors from Language Pre-training

2025-10-02

Авторы:

Junlin Han, Shengbang Tong, David Fan, Yufan Ren, Koustuv Sinha, Philip Torr, Filippos Kokkinos

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Large Language Models (LLMs), despite being trained on text alone, surprisingly develop rich visual priors. These priors allow latent visual capabilities to be unlocked for vision tasks with a relatively small amount of multimodal data, and in some cases, to perform visual tasks without ever having seen an image. Through systematic analysis, we reveal that visual priors-the implicit, emergent knowledge about the visual world acquired during language pre-training-are composed of separable percept...

ID: 2509.26625v1 cs.LG, cs.AI, cs.CV, cs.MM

arXiv PDF

📄 MonoCon: A general framework for learning ultra-compact high-fidelity representations using monotonicity constraints

2025-10-01

Авторы:

Shreyas Gokhale

## Контекст В статье предлагается MonoCon, новшество в области метрического обучения, которое использует функциональные ограничения для повышения качества и эффективности представлений. Данный подход является альтернативой традиционным архитектурным и оптимизационным методам. Он включает монотонную нейронную сеть (MLP), которая подключается к предварительно обученной сети. Использование контрастивной функции потерь и монотонных ограничений позволяет MonoCon формировать высококачественные, дисэнтентностные и компактные представления, в то же время сохраняя высокую точность классификации. MonoCon представляет собой общую модель, применимую к различным задачам, от классификации изображений до выработки представлений для текстовых данных. ## Метод MonoCon состоит из двух основных компонентов: предварительно обученной сети и монотонной нейронной сети (MLP). Обучение происходит с использованием контрастивной функции потерь, при которой нейронная сеть и монотонный MLP координируются друг с другом. Это приводит к формированию устойчивых, компактных и дисэнтентных представлений. Во время тестирования MLP используется в качестве эмбеддинг-головки, что позволяет сократить размер представления, не теряя в качестве. Таким образом, MonoCon предлагает простой и эффективный подход к обучению высококачественных представлений, используя функциональные требования. ## Результаты Эксперименты показали, что MonoCon значительно улучшает сжатие представлений, не ухудшая их качество. На задаче классификации изображений на CIFAR-100 MonoCon формирует представления, которые 9 раз компактнее, чем представления, полученные базовой моделью, при этом сохраняя 99% точности классификации. Для задачи определения схожести предложений на SNLI MonoCon формирует представления, которые 3,4 раза компактнее, и 1,4 раза улучшаются по метрике STS-B. Это указывает на общий потенциал MonoCon в различных задачах и доменах. ## Значимость MonoCon предлагает решение для ключевых проблем в области метрического обучения: сокращение размера представлений, повышение устойчивости и сохранение качества. Эти преимущества имеют широкое применение в различных областях, включая машинное обучение на краевых устройствах, хранение данных, поиск информации и вычисление на крупных объемах данных. Этот подход может повысить эффективность и ресурсосбережение в системах, где ограничены ресурсы или требуется высокая скорость обработки. ## Выводы MonoCon представляет собой новую модель для обучения компактных и дисэнтентных представлений, использующую функциональные ограничения. Этот подход показал высокую эффективность на различных зада

Annotation:

Learning high-quality, robust, efficient, and disentangled representations is a central challenge in artificial intelligence (AI). Deep metric learning frameworks tackle this challenge primarily using architectural and optimization constraints. Here, we introduce a third approach that instead relies on $\textit{functional}$ constraints. Specifically, we present MonoCon, a simple framework that uses a small monotonic multi-layer perceptron (MLP) head attached to any pre-trained encoder. Due to co...

ID: 2509.22931v1 cs.LG, cs.AI, cs.CV

arXiv PDF

📄 Robust Fine-Tuning from Non-Robust Pretrained Models: Mitigating Suboptimal Transfer With Adversarial Scheduling

2025-10-01

Авторы:

Jonas Ngnawé, Maxime Heuillet, Sabyasachi Sahoo, Yann Pequignot, Ola Ahmad, Audrey Durand, Frédéric Precioso, Christian Gagné

## Контекст Появление моделей предобученных на масштабных данных (pretrained models) преобразовало машинное обучение, особенно в области робастного (robust) fine-tuning (RFT). Однако существуют существенные проблемы, такие как необходимость выравнивания сложности задачи и уровня защиты от атак адверсарных примеров. Несмотря на то, что в открытом доступе доступно много не-робастных (non-robust) pretrained model, их эффективность при RFT недостаточно изучена. Это создает мотивацию для исследования условий, при которых не-робастные модели могут быть эффективно использованы в RFT. ## Метод Мы рассматриваем робастное fine-tuning (RFT), нацеленное на достижение лучшей защиты от атак адверсарных примеров, при этом сохраняя высокую точность на родной задаче (downstream task). Методология включает эксперименты с шестью предобученными моделями и пятью различными датасетами. Основной инновацией является предложение новой техники — **Epsilon-Scheduling**, которая включает в себя гибкий график сильности токсичности (perturbation strength) во время обучения. Мы также предлагаем **expected robustness**, новую метрику, которая оценивает точность и защиту модели по мере увеличения уровня атак адверсарных примеров. ## Результаты Исследования показали, что при попытке fine-tuning не-робастных моделей с целью достижения робастности происходит "откат" (suboptimal transfer), когда модель не может одновременно достичь высокой точности и высокого уровня робастности. Это эффект мы отметили на трудных задачах и с высоким уровнем шума в данных. Однако, применение **Epsilon-Scheduling** позволяет избежать этого проблемы, обеспечивая более гладкое и эффективное обучение. Метрика **expected robustness** показывает, что этот подход позволяет достичь более сбалансированной точности и защиты в разных условиях. ## Значимость Результаты этой работы имеют практическое значение для области машинного обучения, где требуется робастность и точность в различных условиях. Новая методика позволяет избегать потери эффективности при переобучении с не-робастных моделей, что улучшает их эффективность в RFT. Эти технологии могут быть применены в темах, где требуется обеспечение защиты от атак адверсарных примеров, например, в области безопасности, автоматизации и дальнейших исследований в области машинного обучения. ## Выводы Мы установили, что в Robust Fine-Tuning с не-робастных моделей может возникать "откат" в задаче фине-тюнинга, но наша новая техника **Epsilon-Scheduling** устраняет этот эффект, обеспечивая робастность и высокую точность. Мы также представили **expected robustness** как новую метрику для эффективной оценки моделей. В будущих исследованиях мы планируем применить эти методы на б

Annotation:

Fine-tuning pretrained models is a standard and effective workflow in modern machine learning. However, robust fine-tuning (RFT), which aims to simultaneously achieve adaptation to a downstream task and robustness to adversarial examples, remains challenging. Despite the abundance of non-robust pretrained models in open-source repositories, their potential for RFT is less understood. We address this knowledge gap by systematically examining RFT from such non-robust models. Our experiments reveal...

ID: 2509.23325v1 cs.LG, cs.AI, cs.CV

arXiv PDF

📄 Graph Your Own Prompt

2025-10-01

Авторы:

Xi Ding, Lei Wang, Piotr Koniusz, Yongsheng Gao

#### Контекст Глубокие нейронные сети достигли впечатляющих результатов в обработке и анализе изображений, текста, звука и других типов данных. Однако они часто сталкиваются с проблемой недостаточной семантической структуры в пространстве признаков. Например, они могут сопоставить не относящиеся друг к другу объекты, такие как "кошка" и "собака", в одном пространстве признаков, что приводит к нежелательным пересечениям между классами. Эта проблема становится важной, когда сети используются в задачах, требующих высокой точности или семантической классификации. Существуют методы, направленные на улучшение семантической структуры, но они либо требуют дополнительных параметров, либо не полностью адрессируют проблему. Наша мотивация заключается в создании рамочного подхода, который бы позволял моделям максимально эффективно использовать свои собственные выводы для улучшения семантической структуры внутреннего пространства признаков. #### Метод Мы предлагаем **Graph Consistency Regularization (GCR)**, новую фреймворк, который введет графовые структуры, полученные из выводов модели, в процесс обучения. Этот подход добавляет новый тип самопробуждения, позволяя модели очищать и повышать качество своих внутренних представлений. GCR работает путем создания **Graph Consistency Layers (GCL)** на разных уровнях сети. Эти слои строят графы семантических связей на основе выходов модели для каждого батча и выравнивают их с класс-ориентированным графом, построенным на основе классовых предсказаний. Это выравнивание гарантирует, что семантические отношения на уровне признаков отражают классовую консистентность. Чтобы улучшить эффективность, GCR включает в себя адаптивный механизм взвешивания для учитывания вклада каждого уровня в структуру. Таким образом, сеть может приоритетизировать надежные уровни представлений, отфильтровывая шумные слои. GCR является модельно-независимым, легковесным и может быть легко интегрирован в любую нейронную сеть. #### Результаты Мы проверили GCR на нескольких задачах классификации изображений, включая CIFAR-10, CIFAR-100 и ImageNet. Мы использовали различные модели, такие как ResNet и ViT, и сравнили результаты с традиционными методами. Результаты показали, что GCR улучшает семантическую структуру внутреннего пространства признаков, увеличивая коэффициент Джини и уменьшая значения intra-class distance. Эти улучшения приводят к значительному повышению качества и устойчивости прогнозов. Кроме того, мы провели эксперименты на задачах, требующих высокой семантической точности, и показали, что GCR позволяет модели лучше различать сложные классы, на

Annotation:

We propose Graph Consistency Regularization (GCR), a novel framework that injects relational graph structures, derived from model predictions, into the learning process to promote class-aware, semantically meaningful feature representations. Functioning as a form of self-prompting, GCR enables the model to refine its internal structure using its own outputs. While deep networks learn rich representations, these often capture noisy inter-class similarities that contradict the model's predicted se...

ID: 2509.23373v1 cs.LG, cs.AI, cs.CV

arXiv PDF

📄 FedAgentBench: Towards Automating Real-world Federated Medical Image Analysis with Server-Client LLM Agents

2025-10-01

Авторы:

Pramit Saha, Joshua Strong, Divyanshu Mishra, Cheng Ouyang, J. Alison Noble

#### Контекст Federated learning (FL) представляет собой метод совместного обучения моделей машинного обучения на данных, распределенных между различными участниками, такими как больницы или клиники, без необходимости передачи или объединения индивидуальных данных. Это позволяет создавать мощные медицинские модели, обучаемые на данных из нескольких источников, сохраняя при этом конфиденциальность пациентов. Тем не менее, в реальных условиях развертывания FL в медицине возникают серьезные операционные проблемы. Эти проблемы включают выбор подходящих участников-клиентов (например, больниц), координацию между центральным сервером и клиентами, предварительную обработку клиентских данных, гармонизацию нестандартизированных данных и меток, а также выбор подходящих FL-алгоритмов на основе конкретных задач и характеристик данных. Эти операционные затруднения существенно затрудняют развертывание FL в медицинских приложениях и подчеркивают необходимость развития автоматизированных систем, способных автоматически управлять FL-рабочими процессами. #### Метод FedAgentBench представляет собой расширенную FL-фреймворк, который автоматизирует основные этапы рабочего процесса FL, включая выбор клиентов, координацию, обработку данных и выбор FL-алгоритмов. Основной идеей является создание интеллектуальных агентов, сотрудничающих между центральным сервером и клиентскими устройствами. Центральный агент выбирает подходящих участников, учитывая потребности FL-проекта, а клиентские агенты выполняют локальную обработку данных и участвуют в обучении модели. Мы разработали архитектуру, поддерживающую 40 различных FL-алгоритмов, каждый оптимизированный для решения конкретных задач в ситуациях с разной характеристикой данных. Кроме того, мы создали 201 датасетов, симулирующих рабочие среды в медицине, такие как дерматоскопия, ультразвуковые исследования, офтальмологические исследования, гистопатология, реонтген и магнитные резонансные исследования. Эти датасеты позволяют протестировать работу системы в условиях реального мира. #### Результаты Мы проводили эксперименты с 14 открытыми и 10 закрытыми текстовыми сетевыми моделями различных размеров. Наши результаты показали, что некоторые модели, такие как GPT-4.1 и DeepSeek V3, демонстрируют впечатляющие результаты в автоматизации отдельных этапов FL, в том числе выбора клиентов, обработки данных и выбора FL-алгоритмов. Однако более сложные задачи, требующие одновременного учета множества факторов (например, нестандартизированность данных и зависимости между ними), остаются сложными даже для самы

Annotation:

Federated learning (FL) allows collaborative model training across healthcare sites without sharing sensitive patient data. However, real-world FL deployment is often hindered by complex operational challenges that demand substantial human efforts. This includes: (a) selecting appropriate clients (hospitals), (b) coordinating between the central server and clients, (c) client-level data pre-processing, (d) harmonizing non-standardized data and labels across clients, and (e) selecting FL algorith...

ID: 2509.23803v1 cs.LG, cs.AI, cs.CV, cs.DC, cs.MA

arXiv PDF

📄 Efficient Multi-turn RL for GUI Agents via Decoupled Training and Adaptive Data Curation

2025-10-01

Авторы:

Pengxiang Li, Zechen Hu, Zirui Shang, Jingrong Wu, Yang Liu, Hui Liu, Zhi Gao, Chenrui Shi, Bofei Zhang, Zihao Zhang, Xiaochuan Shi, Zedong YU, Yuwei Wu, Xinxiao Wu, Yunde Jia, Liuyu Xiang, Zhaofeng He, Qing Li

#### Контекст Графические пользовательские интерфейсы (GUI) широко распространены в современных технологиях, обеспечивая удобство взаимодействия с компьютерами и мобильными устройствами. Однако автоматизация сложных задач, взаимодействующих с GUI, остается вызовом. Визуально-языковые модели (VLM) демонстрируют перспективы в этой области, но сталкиваются с проблемами: медленные многошаговые взаимодействия с GUI во время подготовки политики и недостаточное количество качественных взаимодействий хо AGENTUI для политического обучения. Данная работа ориентирована на решение этих проблем, обеспечивая эффективность и точность в обучении агентов для GUI-систем. #### Метод Для решения указанных проблем предлагается фреймворк Decoupled Agentic RL Training (DART). Он разделяет обучение на четыре асинхронных модуля: среда выполнения, сервис подготовки траекторий, менеджер данных и тренер. Это дизайн способствует неблокирующей связи, асинхронному обучению, подготовке траекторий на уровне роллаутов и синхронизации моделей на уровне каждого рабочего процесса. Для обеспечения эффективного обучения, вводится адаптивная схема курсации данных: (1) предварительное сборение успешных траекторий для сложных задач, (2) динамическое изменение количества роллаутов и длины траекторий в зависимости от сложности задачи, (3) обучение на высокоэнтропийных шагах для концентрации на критических решениях, (4) стабилизация обучения через усеченное важностное выборка для соответствия политик. #### Результаты Исследования проводились на OSWorld-benchmark. DART-GUI-7B показал 42.13% успешность в выполнении задач, что является 14.61% абсолютного прироста по сравнению с базовой моделью и 7.34% выше SOTA открытого кода. Эти результаты свидетельствуют о значительном улучшении производительности. Более того, DART повысил GPU-потребление на 1.6, тренировочный процесс на 1.9, а эффективность среды выполнения увеличил на 5.5. #### Значимость Предлагаемый подход может быть применен в различных сценариях, где требуется автоматизация задач, взаимодействующих с GUI. Он обеспечивает высокую эффективность обучения, уменьшает время роллаута, улучшает качество решений и способствует устойчивости политик. Эти достижения открывают широкие возможности для развития систем агентного RL в области взаимодействия с GUI. #### Выводы Основные достижения: эффективное решение проблем медленных взаимодействий и недостатка качественных данных в обучении RL для GUI. Направления будущих исследований: улучшение адаптивности курсации данных, расширение DART на другие типы интерактивных систем и развитие новых методов обучения в многошаговых

Annotation:

Vision-language model (VLM) based GUI agents show promise for automating complex desktop and mobile tasks, but face significant challenges in applying reinforcement learning (RL): (1) slow multi-turn interactions with GUI environments for policy rollout, and (2) insufficient high-quality agent-environment interactions for policy learning. To address these challenges, we propose DART, a Decoupled Agentic RL Training framework for GUI agents, which coordinates heterogeneous modules in a highly dec...

ID: 2509.23866v1 cs.LG, cs.AI, cs.CV

arXiv PDF

Показано 71 - 80 из 125 записей