📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Vision-Based Localization and LLM-based Navigation for Indoor Environments

2025-08-13

Авторы:

Keyan Rahimi, Md. Wasiul Haque, Sagar Dasgupta, Mizanur Rahman

## Контекст Индорн avigation, или навигация внутри помещений, остается значимой проблемой в условиях ограничения доступа к сигналам GPS и в условиях сложных архитектурных структур больших помещений. Особенно это актуально для местах, где требуется высокая точность и надежность, вроде госпиталей, аэропортов и учебных залов. Традиционные системы ориентации и навигации часто требуют дорогостоящих компонентов или инфраструктуры, которые могут быть недоступными в ресурсоподвержденных средах. Задача этого исследования — развитие эффективной и ресурсоемкой системы ориентации и навигации внутри помещений, используя доступные технологии. ## Метод Предлагаемая методология сочетает в себе два модуля: визуальное распознавание местоположения (localization) и генерацию направлений (navigation) с помощью больших языковых моделей (LLM). Для распознавания местоположения используется модель ResNet-50, которая была прикреплена к смартфонной камере для снимать изображения в реальном времени. Эта модель была тренирована на данных, имеющихся в ограниченных условиях видимости. Второй модуль — LLM — используется для генерации направлений. Он обрабатывает предобработанные изображения планов помещений и формирует пошаговые инструкции. Эта система обучена на данных с большого объема текста и изображений, чтобы она могла корректно воспринимать информацию о структурах помещений и предоставлять понятные инструкции. ## Результаты Проведенные эксперименты показали высокую точность распознавания местоположения. Система находила позицию пользователя с достоверностью 96%, даже в условиях ограниченной видимости и коротких запросов. Навигационные тесты, основанные на реальных фотограммах помещений, демонстрировали достижение средней точности 75% в инструкциях. Однако были выявлены ограничения, такие как трудности с нулевой разметкой и некоторые трудности в обработке текста в реальном времени. Эти результаты демонстрируют значительный потенциал системы, особенно в ресурсоскрутящих условиях. ## Значимость Этот подход может быть применен в различных областях, таких как здравоохранение, образование и общественный сектор. Он предлагает систему, которая не требует дорогостоящих инфраструктурных компонентов и может быть реализована в различных структурах. Улучшение навигационных систем внутри помещений может привести к более эффективной и доступной ориентации для людей с ограниченными возможностями, а также уменьшить время, потраченное на поиски мест. ## Выводы Результаты экспериментов показали возможность создания эффективной системы на

Annotation:

Indoor navigation remains a complex challenge due to the absence of reliable GPS signals and the architectural intricacies of large enclosed environments. This study presents an indoor localization and navigation approach that integrates vision-based localization with large language model (LLM)-based navigation. The localization system utilizes a ResNet-50 convolutional neural network fine-tuned through a two-stage process to identify the user's position using smartphone camera input. To complem...

ID: 2508.08120v1 cs.LG, cs.AI, cs.CV

arXiv PDF

📄 FedMeNF: Privacy-Preserving Federated Meta-Learning for Neural Fields

2025-08-12

Авторы:

Junhyeog Yun, Minui Hong, Gunhee Kim

#### Контекст Современные технологии сталкиваются с растущим потребностью в эффективных методах обработки и анализа больших многомодальных данных. Одним из ключевых подходов является исследование **neural fields**, которые представляют собой памятно-эффективные модели, позволяющие хранить и обрабатывать данные различных моделей. Несмотря на их удобство и высокую точность, обучение моделей, основанных на neural fields, требует высоких вычислительных ресурсов и больших объемов данных. Это ограничивает применение таких моделей в средах с ограниченными ресурсами, таких как edge devices. Для преодоления этого трудности возникает необходимость в разработке методов эффективного обучения, особенно в условиях нехватки данных или существующих требований к конфиденциальности. **Federated Meta-Learning (FML)** представляет собой такой подход, но существуют проблемы, связанные с повышенным риском утечки конфиденциальных данных. Для решения этой проблемы предлагается новый подход, называемый **FedMeNF**. #### Метод **FedMeNF** — это метод **federated meta-learning**, основанный на применении новой **privacy-preserving loss-функции**, которая позволяет снизить риск утечки конфиденциальных данных. Архитектура FedMeNF включает в себя локальный мета-оптимизатор, работающий на каждом клиенте без сохранения чувствительных данных. Этот метод оптимизирует модель на базе нейронных полей, используя федеративное обучение, при этом минимизируя риск утечки конфиденциальности. Особенностью FedMeNF является использование адаптивной стратегии, которая позволяет достичь быстрого обучения и хорошего качества реконструкции, даже при несбалансированных (non-IID) данных. Техническим решением является использование **privacy-preserving loss**, который регулирует уровень утечки при мета-оптимизации на клиентских устройствах. #### Результаты Для оценки эффективности FedMeNF проводились ряд экспериментов на различных данных, включая несбалансированные (non-IID) и небольшие объемы данных. Результаты были сравнены с другими подходами, такими как traditiona FML и традиционные модели neural fields. Эксперименты показали, что FedMeNF демонстрирует **высокую скорость обучения** и **устойчивость к несбалансированным данным**. Кроме того, модель показала **высокую точность реконструкции** данных, даже при нескольких итераций обучения. Такие результаты достигаются благодаря применению **новой loss-функции**, которая эффективно регулирует утечку конфиденциальных данных. Эти результаты подтверждают **робастность** и **эффективность** FedMeNF в условиях реальных данных. #### Значимость **FedMeNF** представляет собой значительный вклад в область **neural fields** и **federated learning**. Его главное преимущество заключается

Annotation:

Neural fields provide a memory-efficient representation of data, which can effectively handle diverse modalities and large-scale data. However, learning to map neural fields often requires large amounts of training data and computations, which can be limited to resource-constrained edge devices. One approach to tackle this limitation is to leverage Federated Meta-Learning (FML), but traditional FML approaches suffer from privacy leakage. To address these issues, we introduce a novel FML approach...

ID: 2508.06301v1 cs.LG, cs.AI, cs.CV, cs.DC

arXiv PDF

📄 FLAT: Latent-Driven Arbitrary-Target Backdoor Attacks in Federated Learning

2025-08-09

Авторы:

Tuan Nguyen, Khoa D Doan, Kok-Seng Wong

**Резюме** Статья предлагает новый подход к внедрению вредоносных backdoor-атак в системы федеративного обучения (FL). Традиционные backdoor-атаки в FL ограничены фиксированными триггерами или одной целью, что делает их неэффективными и легко обнаруживаемыми. В отличие от них, авторы предлагают FLAT (FL Arbitrary-Target Attack), которая использует локальный условный автокодировщик для генерации динамических, целевых и адаптивных триггеров. Это позволяет атакующему выбирать произвольную цель без переучивания модели и скрыться от стандартных методов обнаружения. FLAT объединяет в себе высокую успешность атаки, стелтость и гибкость в единой модели. Эксперименты показали, что атака достаточно эффективна и устойчива против передовых методов защиты FL. Научиться распознавать и бороться с подобными новыми типами backdoor-атак требуется для развития эффективных защитных стратегий в FL.

Annotation:

Federated learning (FL) is vulnerable to backdoor attacks, yet most existing methods are limited by fixed-pattern or single-target triggers, making them inflexible and easier to detect. We propose FLAT (FL Arbitrary-Target Attack), a novel backdoor attack that leverages a latent-driven conditional autoencoder to generate diverse, target-specific triggers as needed. By introducing a latent code, FLAT enables the creation of visually adaptive and highly variable triggers, allowing attackers to sel...

ID: 2508.04064v1 cs.LG, cs.AI, cs.CV

arXiv PDF

📄 Learning from Oblivion: Predicting Knowledge Overflowed Weights via Retrodiction of Forgetting

2025-08-09

Авторы:

Jinhyeok Jang, Jaehong Kim, Jung Uk Kim

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современное глубокое обучение опирается на предварительно обученные веса (pre-trained weights) как на фундаментальный инструмент переноса знаний, особенно в условиях дефицита данных для конкретных задач. Однако существует фундаментальное ограничение: качество предобученных весов напрямую зависит от объема и разнообразия исходного датасета. Традиционные подходы к улучшению предобученных моделей фокусируются на увеличении размеров архитектур или сборе больших массивов данных, что требует значительных вычислительных ресурсов и времени. Авторы статьи поднимают принципиально новый вопрос: возможно ли синтезировать "знания", превосходящие те, что содержатся в исходном датасете, без фактического увеличения объема обучающих данных? Эта проблема особенно актуальна в контексте ограниченных ресурсов и необходимости эффективного использования уже имеющихся моделей. Исследователи обращают внимание на феномен "структурированного забывания" (structured forgetting) - процесса, при котором модель последовательно теряет информацию при обучении на уменьшенных датасетах. Ключевое наблюдение заключается в том, что этот процесс забывания имеет определенную структуру и предсказуемость, что открывает возможность его инверсии для восстановления "утраченных" знаний. Это представляет собой парадигмальный сдвиг в понимании роли забывания в обучении нейронных сетей - вместо рассмотрения его как негативного явления, авторы предлагают использовать забывание как механизм извлечения дополнительных знаний. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы представляют революционный подход KNowledge Overflowed Weights (KNOW) prediction, который использует мета-обучение для предсказания улучшенных предобученных весов. Методология строится на нескольких ключевых компонентах. Во-первых, создается контролируемый процесс забывания через последовательное дообучение (fine-tuning) модели на прогрессивно уменьшенных подмножествах исходного датасета. Это генерирует набор весовых переходов, которые формируют обучающую выборку для мета-модели. Центральным элементом подхода является KNowledge Overflowed Weights Nowcaster (KNOWN) - гипермодель, которая изучает общие закономерности эволюции весов во время процесса забывания. KNOWN использует архитектуру трансформера для моделирования сложных нелинейных зависимостей между весами на различных этапах забывания. Модель обучается предсказывать финальные веса, которые будут соответствовать состоянию, как если бы модель была обучена на большем датасете, чем доступный. Ключевым техническим решением является использование обратного процесса (retrodiction) - инверсии процесса забывания для генерации "переполненных знаний" весов. Это достигается через оптимизацию мета-функции потерь, которая минимизирует разницу между предсказанными весами и оптимальными весами, полученными через идеальный процесс обучения на расширенном датасете. Метод также включает механизмы регуляризации для предотвращения переобучения и обеспечения устойчивости предсказаний. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Экспериментальная часть исследования охватывает широкий спектр архитектур и датасетов для демонстрации универсальности предложенного подхода. Исследователи использовали ResNet-50, Vision Transformer (ViT-B/16) и BERT-base модели на датасетах ImageNet, CIFAR-100, CIFAR-10 и GLUE. Для создания процесса забывания использовались различные стратегии сэмплирования, включая случайное удаление классов и пропорциональное уменьшение данных каждого класса. Результаты показывают последовательное превосходство KNOW prediction над наивным дообучением и простыми методами предсказания весов. На ImageNet с ResNet-50 метод показал улучшение точности на 3.2% по сравнению с базовым дообучением при использовании только 50% исходных данных. Для ViT на CIFAR-100 улучшение составило 5.7% точности. Особенно впечатляющие результаты получены в режиме крайне ограниченных данных (1-5% от исходного датасета), где KNOW показал до 12% улучшения. Анализ обобщающей способности показал, что предсказанные веса демонстрируют лучшую трансферную эффективность на смежных задачах. Н

Annotation:

Pre-trained weights have become a cornerstone of modern deep learning, enabling efficient knowledge transfer and improving downstream task performance, especially in data-scarce scenarios. However, a fundamental question remains: how can we obtain better pre-trained weights that encapsulate more knowledge beyond the given dataset? In this work, we introduce \textbf{KNowledge Overflowed Weights (KNOW)} prediction, a novel strategy that leverages structured forgetting and its inversion to synthesi...

ID: 2508.05059v1 cs.LG, cs.AI, cs.CV

arXiv PDF

📄 Adapting Vision-Language Models Without Labels: A Comprehensive Survey

2025-08-08

Авторы:

Hao Dong, Lijun Sheng, Jian Liang, Ran He, Eleni Chatzi, Olga Fink

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последние годы объединенные модели зрения и языка (Vision-Language Models, VLMs) продемонстрировали выдающиеся способности к обобщению на широком спектре задач, включая распознавание изображений, визуально-языковое понимание и генерацию. Однако, несмотря на впечатляющие базовые результаты, прямое применение этих моделей к конкретным прикладным сценариям без специфической адаптации часто приводит к субоптимальной производительности. Это наблюдается в ситуациях с доменным сдвигом, специфическими распределениями данных или уникальными требованиями конечной задачи. Проблема усложняется тем, что традиционные методы адаптации требуют больших объемов размеченных данных, что затрудняет их практическое применение. Сбор и маркировка данных может быть крайне дорогостоящим, особенно в специализированных областях, таких как медицинская диагностика, промышленная инспекция или автономное вождение. Это привело к растущему интересу к методам адаптации без надзора, которые не требуют размеченных данных. Существующие исследования в этой области фрагментированы и отсутствует систематическое понимание различных подходов. Разные методы предполагают различные уровни доступа к данным, от полного их отсутствия до стриминговых данных в реальном времени. Отсутствие унифицированной таксономии и сравнительного анализа затрудняет выбор подходящего метода для конкретной задачи. Эта статья заполняет критический пробел в литературе, предоставляя всесторонний обзор методов адаптации VLMs без использования меток. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают систематическую таксономию методов адаптации VLMs без меток, основанную на доступности и характере неразмеченных визуальных данных. Таксономия включает четыре ключевых парадигмы, каждая из которых оптимизирована для конкретного сценария распределения данных. Первая парадигма - Data-Free Transfer (передача без данных) - предполагает полное отсутствие доступных данных из целевого домена. Методы в этой категории полагаются на синтетические данные, сгенерированные из предобученных генеративных моделей, или используют мета-информацию из исходного модального пространства. Основная стратегия заключается в генерации псевдоданных, которые имитируют характеристики целевого домена, с последующей адаптацией модели через методы дистилляции знаний. Вторая парадигма - Unsupervised Domain Transfer (нерегулируемая передача домена) - применяется когда доступны большие объемы неразмеченных данных целевого домена. Методы здесь используют стратегии выравнивания распределений, такие как adversarial adaptation, feature alignment и self-supervised learning. Специфическая архитектура включает итеративное обучение с механизмами контрастивной потери и pseudo-labeling. Третья парадигма - Episodic Test-Time Adaptation (эпизодическая адаптация во время тестирования) - работает с батчами данных, поступающих периодически. Методы используют механизмы обратного распространения с адаптивными оптимизаторами, обновляющими только normalization layers или lightweight adaptation modules. Ключевое техническое решение - использование entropy minimization и consistency regularization для стабильной адаптации. Четвертая парадигма - Online Test-Time Adaptation (онлайн адаптация во время тестирования) - спроектирована для стриминговых данных в реальном времени. Архитектура включает буферы ограниченного размера, online learning алгоритмы и механизмы быстрой адаптации. Методы используют мета-обучение и continual learning стратегии для предотвращения катастрофического забывания. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели комплексное эмпирическое исследование, охватывающее 15+ представительных методов из каждой парадигмы. Эксперименты проводились на 8 различных наборах данных, включая ImageNet, CIFAR-10/100, DomainNet, Office-Home, CUB-200, Food-101, а также специализированные наборы для медицинской визуализации и автономного вождения. Для Data-Free Transfer методов, использовались различные генеративные модели (StyleGAN, BigGAN, diffusion models) для создания синтетических данных. Результаты показали, что качество синтетических данных напрямую коррелирует с эффективностью адаптации, причем diffusion-based подходы демонстрировали наибольшую устойчивость к доменному сдвигу. Наибольшие улучшения наблюдались в сценариях

Annotation:

Vision-Language Models (VLMs) have demonstrated remarkable generalization capabilities across a wide range of tasks. However, their performance often remains suboptimal when directly applied to specific downstream scenarios without task-specific adaptation. To enhance their utility while preserving data efficiency, recent research has increasingly focused on unsupervised adaptation methods that do not rely on labeled data. Despite the growing interest in this area, there remains a lack of a unif...

ID: 2508.05547v1 cs.LG, cs.AI, cs.CV

arXiv PDF

Показано 121 - 125 из 125 записей