📚 Саммари научных статей из arXiv

Найдено 11614 результатов по запросу 'cs.CV' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 YOLOv8-Based Deep Learning Model for Automated Poultry Disease Detection and Health Monitoring paper

2025-08-08

Авторы:

Akhil Saketh Reddy Sabbella, Ch. Lakshmi Prachothan, Eswar Kumar Panta

## КОНТЕКСТ И ПРОБЛЕМАТИКА Птицеводство представляет собой критически важную отрасль мирового сельского хозяйства, обеспечивающую значительную долю белкового питания населения планеты. Однако распространение заболеваний среди птиц создает серьезную угрозу как для экономической устойчивости фермерских хозяйств, так и для продовольственной безопасности в целом. Традиционные методы диагностики заболеваний в птицеводстве полагаются исключительно на визуальный осмотр персонала, что сопряжено с множеством критических недостатков. Процесс ручного мониторинга является чрезвычайно трудоемким, требует значительных человеческих ресурсов и подвержен субъективным ошибкам, особенно при масштабных производствах с десятками тысяч голов птицы. Существующие проблемы усугубляются тем, что ранние стадии многих заболеваний протекают с минимальными внешними проявлениями, что делает своевременное выявление патологий практически невозможным при использовании традиционных методов. Задержка в диагностике приводит к быстрому распространению инфекций среди поголовья, что может привести к массовому падежу птицы, значительным экономическим потерям и даже необходимости полного ликвидации поголовья. Кроме того, в условиях крупных промышленных комплексов человеческий фактор становится не только источником ошибок, но и потенциальным вектором распространения заболеваний между секторами фермы. Необходимость в автоматизированных системах мониторинга здоровья птицы становится все более очевидной, особенно в контексте растущих требований к биобезопасности и необходимости снижения эксплуатационных расходов. Современные технологии компьютерного зрения и глубокого обучения предоставляют уникальную возможность создания систем, способных непрерывно и объективно оценивать состояние здоровья птицы в реальном времени, минимизируя человеческое вмешательство и повышая точность диагностики. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения задачи автоматизированного мониторинга здоровья птицы авторы предложили использовать передовую архитектуру YOLO v8 (You Only Look Once version 8), представляющую собой современную систему компьютерного зрения для обнаружения объектов в реальном времени. Методология разработки системы включала несколько ключевых этапов, начиная от подготовки обширного аннотированного датасета и заканчивая оптимизацией модели для работы в условиях промышленной птицефермы. Первым этапом стало формирование большого массива высокоразрешающих изображений кур, охватывающих различные породы, возрастные группы и условия содержания. Изображения были тщательно аннотированы экспертами-ветеринарами, которые маркировали визуальные признаки заболеваний, включая патологические изменения в оперении, кожных покровах, глазах, изменения в осанке и поведении птицы. Аннотации включали как явные признаки болезней (поражения кожи, воспаления), так и тонкие поведенческие индикаторы (летаргия, нехарактерные движения, изменения паттернов питания). Архитектура YOLO v8 была выбрана благодаря своей способности обрабатывать изображения в реальном времени с высокой точностью. Модель была адаптирована под специфику задачи через fine-tuning с использованием трансферного обучения, что позволило ускорить процесс обучения и повысить качество распознавания. Особое внимание было уделено оптимизации модели для работы с ограниченными вычислительными ресурсами, характерными для фермерской инфраструктуры. Были реализованы механизмы предварительной фильтрации изображений для исключения случаев неинформативных кадров, а также алгоритмы слежения за объектами для предотвращения повторного анализа одних и тех же особей. Система была интегрирована с механизмом генерации своевременных предупреждений для фермеров через мобильные уведомления и панели управления. Алгоритм включал многоуровневую систему приоритетов, позволяющую оперативно реагировать на критические случаи, требующие немедленного вмешательства ветеринара. Дополнительно была реализована функция анализа трендов заболеваемости, позволяющая прогнозировать вспышки заболеваний на основе обнаруженных ранних признаков. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Экспериментальная часть исследования включала всесторон

Annotation:

In the poultry industry, detecting chicken illnesses is essential to avoid financial losses. Conventional techniques depend on manual observation, which is laborious and prone to mistakes. Using YOLO v8 a deep learning model for real-time object recognition. This study suggests an AI based approach, by developing a system that analyzes high resolution chicken photos, YOLO v8 detects signs of illness, such as abnormalities in behavior and appearance. A sizable, annotated dataset has been used to ...

ID: 2508.04658v1 cs.CV, cs.AI

arXiv PDF

📄 HierarchicalPrune: Position-Aware Compression for Large-Scale Diffusion Models

2025-08-08

Авторы:

Young D. Kwon, Rui Li, Sijia Li, Da Li, Sourav Bhattacharya, Stylianos I. Venieris

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Текст-в-изображение (T2I) диффузорные модели (DMs) представляют собой технологии, которые достигли выдающихся результатов в синтезе высококачественных изображений. Однако их впечатляющие результаты сопровождаются серьезными техническими ограничениями: большие размеры моделей, которые могут достигать 8-11 миллиардов параметров, делают их непригодными для использования на ресурсо-ограниченных устройствах, таких как мобильные телефоны или устройства обработки данных с ограниченными вычислительными мощностями. Это ограничение является критическим в контексте распространения моделей в реальных приложениях, где важно обеспечить эффективность работы и низкие требования к ресурсам. Таким образом, существует необходимость в разработке эффективных методов для сжатия таких моделей, которые могут сократить их размер и снизить вычислительные требования, не ухудшая их качество. Традиционные подходы к сжатию моделей, такие как прунинг (pruning) и квантование, часто сталкиваются с проблемой снижения качества выходных данных, что может быть критически важно в случае с T2I моделями, где высокое качество синтезированных изображений является основной целью. ## ПРЕДЛОЖЕННЫЙ МЕТОД Разработчики представляют **HierarchicalPrune**, фреймворк для сжатия больших моделей диффузоров, основанный на иерархическом понимании функциональных блоков. Этот метод работает в несколько этапов: 1. **Иерархический Позиционный Прунинг (Hierarchical Position Pruning)**: Этот шаг определяет и удаляет менее важные блоки модели, основываясь на их позиции в иерархической структуре модели. Более ранние блоки, ответственные за формирование семантических структур, остаются неизменными, в то время как более поздние блоки, отвечающие за тонкие текстурные детали, подвергаются удалению. 2. **Позиционное Сохранение Весов (Positional Weight Preservation)**: Этот этап защищает критически важные части модели, особенно ранние блоки, которые отвечают за формирование основной структуры и смысла изображения. 3. **Чувствительность-Ориентированная Дистилляция (Sensitivity-Guided Distillation)**: Этот процесс корректирует процесс трансфера знаний между моделями, основываясь на различиях в чувствительности разных блоков. Это позволяет оптимизировать процесс обучения и сохранять качество выходных данных. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты показали, что **HierarchicalPrune** достигает значительных результатов в сжатии моделей. Сочетание прунинга с INT4 квантованием весов позволяет сократить размер модели с 15.8 ГБ до 3.2 ГБ, что составляет 77.5-80.4% уменьшения памяти. Также уменьшается время выполнения (латенция) в диапазоне 27.9-38.0% на различных типах GPU, как высокопроизводительных, так и потребительских. При этом, качество синтезированных изображений остается высоким: снижение GenEval счетчика составило всего 2.6%, а HPSv2 счетчик – 7% по сравнению с оригинальной моделью. Более того, пользовательские исследования с участием 85 человек показали, что качество изображений, сгенерированных HierarchicalPrune, оценивается как соответствующее качеству оригинальной модели. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Преимущества **HierarchicalPrune** очевидны в контексте реальных приложений. Сокращение размера модели и увеличение эффективности ее выполнения позволяют использовать такие модели на мобильных устройствах, что значительно расширяет область их применения. Кроме того, эти модели могут быть использованы в областях, требующих быстрого и качественного генерации изображений, таких как дизайн, реклама, игровая индустрия и образование. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ **HierarchicalPrune** демонстрирует значительные успехи в сжатии моделей диффузоров без существенного ухудшения качества. Будущие исследования могут фокусироваться на дальнейшей оптимизации этих методов для различных типов моделей и приложений, а также на исследовании возможностей применения таких моделей в реальных сценариях.

Annotation:

State-of-the-art text-to-image diffusion models (DMs) achieve remarkable quality, yet their massive parameter scale (8-11B) poses significant challenges for inferences on resource-constrained devices. In this paper, we present HierarchicalPrune, a novel compression framework grounded in a key observation: DM blocks exhibit distinct functional hierarchies, where early blocks establish semantic structures while later blocks handle texture refinements. HierarchicalPrune synergistically combines thr...

ID: 2508.04663v1 cs.CV, cs.AI

arXiv PDF

📄 SEAgent: Self-Evolving Computer Use Agent with Autonomous Learning from Experience

2025-08-08

Авторы:

Zeyi Sun, Ziyu Liu, Yuhang Zang, Yuhang Cao, Xiaoyi Dong, Tong Wu, Dahua Lin, Jiaqi Wang

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последнее время репурпозинг (переиспользование) больших моделей визуально-языкового типа (Large Vision-Language Models, LVLMs) в качестве компьютерных управляющих агентов (Computer Use Agents, CUAs) привел к значительным успехам, особенно благодаря использованию человеческих аннотаций. Однако эти модели сталкиваются с серьезными трудностями при работе с новыми и специализированными программными средами, где отсутствуют человеческие аннотации. Такие сценарии требуют более адаптивных и самообучающихся подходов, так как традиционные модели не могут эффективно масштабироваться на незнакомые задачи. Данная проблематика актуальна для области компьютерных агентов, которые должны быть в состоянии самостоятельно осваивать новые среды и приложения, не требуя постоянного человеческого вмешательства. Традиционные подходы, основанные на предварительной подготовке и ручном маркировании данных, ограничивают возможности агентов в динамических и нестандартных средах. Это вызывает потребность в разработке агентов, способных автоматически адаптироваться и эволюционировать через интерактивное обучение. Таким образом, целью данного исследования является создание фреймворка, позволяющего агентам не только функционировать в незнакомых средах, но и продолжать свое развитие и улучшение без необходимости ручного вмешательства. Такой подход может существенно расширить применимость CUAs в реальных условиях использования, где программное обеспечение часто меняется или новое. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения вышеописанной проблемы, авторы предлагают SEAgent – фреймворк для автономного обучения и эволюции компьютерных управляющих агентов. Основная идея заключается в том, что агенту предоставляется возможность самостоятельно изучать новые программные среды через интерактивное обучение, основанное на экспериментальном опыте. SEAgent состоит из нескольких ключевых компонентов. Первым из них является **World State Model**, который оценивает шаговые траектории агента в процессе его взаимодействия с новой средой. Этот модуль позволяет агенту постепенно оценивать свои действия и корректировать свою политику действий на основе полученных результатов. Второй компонент – **Curriculum Generator**, который генерирует задания для агента с возрастающей сложностью. Это позволяет агенту начинать с простых задач, постепенно продвигаясь к более сложным, что обеспечивает более эффективное обучение. Третьим ключевым элементом является метод обучения **Group Relative Policy Optimization (GRPO)**, который используется для обновления политики агента на основе успешных действий. Дополнительно, агент обучается через **адверсарное имитационное обучение** (adversarial imitation), где он анализирует и избегает неудачных действий. Наконец, SEAgent использует стратегию обучения **specialist-to-generalist**, где специализированные агенты (specialist agents) объединяют свои знания для формирования более универсального (generalist) агента. Этот универсальный агент способен эволюционировать и адаптироваться к новым средам без необходимости дополнительных аннотаций. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели серию экспериментов в пяти различных новых программных средах в рамках симуляционной среды OS-World. Для сравнения, был использован конкурентный открытый фреймворк UI-TARS, который также предназначен для управления компьютерными средами. Результаты показали, что SEAgent достиг результата в 34.5% успешных выполнений задач, что значительно превосходит 11.3% успешности UI-TARS. Это представляет собой улучшение в 23.2%, что демонстрирует высокую эффективность подхода SEAgent при работе в незнакомых средах. Кроме того, SEAgent показал лучшие результаты по сравнению с энсемблом из специализированных агентов, что подтверждает преимущества его универсального подхода к обучению. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный фреймворк SEAgent имеет широкий спектр практических применений. Он может быть использован для создания компьютерных агентов, способных автоматически осваивать новые программные среды без необходимости предварительного ручного описания. Это может быть полезно в различных областях, таких как автоматизация рабочего места, управление компьютерными системами и автоматизация рутинных задач. Одним из ключевых преимуществ SEAgent является его способность адаптироваться к нестандартным и непредвиденным ситуациям, что делает его особенно полезным в динамических средах, где программное обеспечение может часто обновляться или изменяться. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В итоге, SEAgent представляет собой значительный шаг вперед в области компьютерных агентов, способных автоматически осваивать незнакомые программные среды. Данный фреймворк показал значительное улучшение по сравнению с существующими методами, особенно в сценариях, где человеческие аннотации отсутствуют. В будущем, авторы планируют расширить данный подход для работы в более сложных и реальных средах, а также исследовать возможности интеграции SEAgent с другими технологиями, такими как глубокое обучение и автоматическое планирование задач. Это может открыть новые возможности для создания более универсальных и адаптивных компьютерных агентов.

Annotation:

Repurposing large vision-language models (LVLMs) as computer use agents (CUAs) has led to substantial breakthroughs, primarily driven by human-labeled data. However, these models often struggle with novel and specialized software, particularly in scenarios lacking human annotations. To address this challenge, we propose SEAgent, an agentic self-evolving framework enabling CUAs to autonomously evolve through interactions with unfamiliar software. Specifically, SEAgent empowers computer-use agents...

ID: 2508.04700v1 cs.AI, cs.CL, cs.CV, cs.LG, cs.MA, cs.MM

arXiv PDF

📄 Occupancy Learning with Spatiotemporal Memory

2025-08-07

Авторы:

Ziyang Leng, Jiawei Yang, Wenlong Yi, Bolei Zhou

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последние годы технологии автономного вождения стали активно развиваться, и одной из ключевых задач в этой области является восприятие окружающей среды. Одним из наиболее перспективных представлений для этой задачи является 3D-оккупация, позволяющая моделировать окружающее пространство на детализированном уровне. Однако, несмотря на многообещающие результаты, остаются серьезные проблемы, связанные с эффективной агрегацией 3D-оккупации во времени на основе многокадровых входных данных. Эти проблемы связаны с высокой вычислительной нагрузкой, а также неопределенностью и динамикой, присущими вокселям, которые используются для представления 3D-пространства. Сложности, возникающие при обработке временных данных, включают необходимость учета исторической информации, что требует разработки методов, способных обрабатывать и запоминать изменения в сцене на протяжении времени. Кроме того, динамические изменения в окружающей среде могут привести к временным несоответствиям в данных, что затрудняет точное предсказание оккупации в реальном времени. В связи с этим необходимо создать надежный метод, который мог бы эффективно интегрировать информацию из нескольких кадров, учитывая временные зависимости и динамику сцены. Это подчеркивает важность разработки методологических подходов, направленных на улучшение представления оккупации в 3D-пространстве и решение текущих проблем в области автономного вождения. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной статье авторы предлагают новый подход, названный ST-Occ, который представляет собой фреймворк для обучения представлению оккупации на уровне сцены с учетом спатио-временных особенностей. Основными компонентами ST-Occ являются спатио-временная память и механизм внимания, который позволяет эффективно обрабатывать информацию из нескольких кадров. Спатио-временная память служит для накопления и хранения исторической информации о сцене, что позволяет улучшить контекстуальное восприятие оккупации. Эта память организована в виде сцены, что обеспечивает эффективное хранение и доступ к данным. Используя эту память, система может учитывать изменения в оккупации, происходящие со временем, и корректировать свои предсказания на основе полученной информации. Механизм внимания в ST-Occ позволяет адаптировать текущее представление оккупации в зависимости от спатио-временной памяти, что добавляет уровень неуверенности и осведомленности о динамике. Этот подход позволяет системе выделять наиболее значимые аспекты данных, полученных из нескольких кадров, что приводит к более точным предсказаниям оккупации. В результате, ST-Occ значительно улучшает представление спатио-временной информации, что делает его более эффективным для задач предсказания оккупации в 3D-пространстве. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках экспериментов авторы провели серию тестов, чтобы оценить эффективность предложенного метода по сравнению с существующими передовыми решениями. Для оценки производительности модели использовались наборы данных, содержащие многокадровые изображения, которые отражали различные сцены и динамические изменения в оккупации. В частности, проводились тесты на различных метриках, включая средний Intersection over Union (mIoU), который является стандартом для оценки качества предсказаний в задачах сегментации. Результаты экспериментов показали, что метод ST-Occ превосходит другие современные подходы, демонстрируя улучшение на 3 mIoU. Кроме того, было зафиксировано снижение временной несоответствия на 29%, что указывает на более высокую стабильность и надежность предсказаний, полученных с помощью предложенного метода. Эти результаты подтверждают, что ST-Occ не только эффективно агрегирует информацию о сценах, но и значительно улучшает точность предсказаний оккупации, что имеет важное значение для автономного вождения. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Метод ST-Occ имеет широкие перспективы применения в различных областях, включая автономное вождение, робототехнику и системы мониторинга окружающей среды. Преимущества, которые он предлагает, заключаются в более точном и надежном восприятии 3D-оккупации, что может значительно улучшить безопасность и эффективность автономных транспортных средств. Благодаря способности учитывать временные зависимости и динамические изменения в сцене, ST-Occ может быть использован для разработки более адаптивных и устойчивых систем, способных реагировать на изменения в окружающей среде в реальном времени. Это может привести к созданию более безопасных систем автономного вождения, которые смогут лучше справляться с непредсказуемыми ситуациями на дороге. Кроме того, результаты, полученные с использованием ST-Occ, могут быть полезны в других областях, таких как компьютерное зрение и обработка изображений, где требуется анализ и предсказание изменений во времени. Таким образом, предложенный подход может оказать значительное влияние на развитие технологий восприятия и понимания окружающей среды. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В данной статье авторы представили метод ST-Occ, который предлагает новые решения для проблемы восприятия 3D-оккупации в автономном вождении. Основные достижения включают создание спатио-временной памяти и механизма внимания, которые значительно улучшают качество предсказаний и уменьшают временные несоответствия. Будущие исследования могут сосредоточиться на расширении возможностей ST-Occ, включая интеграцию с другими методами машинного обучения и глубокого обучения, а также на улучшении обработки данных в условиях сложной и динамичной среды. Это открывает новые горизонты для развития технологий, связанных с автономным вождением и восприятием окружающей среды.

Annotation:

3D occupancy becomes a promising perception representation for autonomous driving to model the surrounding environment at a fine-grained scale. However, it remains challenging to efficiently aggregate 3D occupancy over time across multiple input frames due to the high processing cost and the uncertainty and dynamics of voxels. To address this issue, we propose ST-Occ, a scene-level occupancy representation learning framework that effectively learns the spatiotemporal feature with temporal consis...

ID: 2508.04705v1 cs.CV

arXiv PDF

📄 GeoShield: Safeguarding Geolocation Privacy from Vision-Language Models via Adversarial Perturbations

2025-08-06

Авторы:

Xinwei Liu, Xiaojun Jia, Yuan Xun, Simeng Qin, Xiaochun Cao

**Резюме:** Vision-Language Models (VLMs), такие как GPT-4, становятся все более эффективными в определении геолокации пользователей на основе публичных изображений, создавая серьезные угрозы для геоприватности. Традиционные методы адверасарных пертурбаций недостаточно эффективны в таком контексте, так как плохо справляются с высокоразрешенными изображениями, ограниченными бюджетами пертурбаций и риском введения неуместного семантического контента. Для решения этой проблемы авторы предлагают GeoShield — инновационный адверасарный фреймворк, нацеленный на защиту геоприватности. GeoShield включает в себя три модуля: разделение географических и негеографических функций, идентификацию гео-раскрывающих элементов и масштабируемую оптимизацию пертурбаций на глобальном и локальном уровнях. Результаты экспериментов показывают, что GeoShield эффективен в чернобокс-сценариях, обеспечивая высокий уровень приватности с минимальными изменениями визуального и семантического качества изображения. Это первое исследование, которое применяет адверасарные пертурбации для защиты от геолокационного выведения в современных VLMs, предлагая практическое и эффективное решение для растущих проблем приватности.

Annotation:

Vision-Language Models (VLMs) such as GPT-4o now demonstrate a remarkable ability to infer users' locations from public shared images, posing a substantial risk to geoprivacy. Although adversarial perturbations offer a potential defense, current methods are ill-suited for this scenario: they often perform poorly on high-resolution images and low perturbation budgets, and may introduce irrelevant semantic content. To address these limitations, we propose GeoShield, a novel adversarial framework d...

ID: 2508.03209v1 cs.CV, cs.AI

arXiv PDF

📄 The Power of Many: Synergistic Unification of Diverse Augmentations for Efficient Adversarial Robustness

2025-08-06

Авторы:

Wang Yu-Hang, Shiwei Li, Jianxiang Liao, Li Bohan, Jian Liu, Wenfei Yin

**Резюме** Атаки с адверсариальными возмущениями представляют серьёзную угрозу для глубоких нейронных сетей, приводя к ухудшению их производительности. Одной из основных методологий защиты является Адверсариальная Обучаемость (Adversarial Training, AT), которая, однако, характеризуется высокими вычислительными затратами и снижением точности модели. Другой подход — использование аугментации данных — также имеет ограничения, так как существующие методы либо дают незначительный прирост в прочности, либо требуют значительных вычислительных ресурсов. В этой работе авторы предлагают Universal Adversarial Augmenter (UAA) — фреймворк, который эффективно комбинирует различные стратегии аугментации для повышения прочности моделей. UAA разделяет процесс генерации возмущений от процесса обучения, позволяя предварительно вычислить универсальные трансформации в автономном режиме. Это позволяет эффективно генерировать уникальные адверсариальные возмущения для каждого образца во время обучения. Результаты экспериментов на различных бенчмарках показывают, что UAA достигает нового уровня эффективности и прочности, устанавливая новый стандарт в защите моделей без необходимости онлайн-генерации адверсариальных примеров.

Annotation:

Adversarial perturbations pose a significant threat to deep learning models. Adversarial Training (AT), the predominant defense method, faces challenges of high computational costs and a degradation in standard performance. While data augmentation offers an alternative path, existing techniques either yield limited robustness gains or incur substantial training overhead. Therefore, developing a defense mechanism that is both highly efficient and strongly robust is of paramount importance.In this...

ID: 2508.03213v1 cs.CV, cs.AI, C.1.2

arXiv PDF

📄 V.I.P. : Iterative Online Preference Distillation for Efficient Video Diffusion Models

2025-08-06

Авторы:

Jisoo Kim, Wooseok Seo, Junwan Kim, Seungho Park, Sooyeon Park, Youngjae Yu

Развёртывание текст-видео (T2V) моделей в ресурсоограниченных средах сталкивается с проблемой высокого вычислительного затратности. Одной из главных сложностей является решение проблемы "mode collapse" во время классических методов знаний дистилляции, которые часто приводят к ухудшению качества при использовании моделей с ограниченной емкостью. Для решения этой проблемы, авторы предлагают метод ReDPO, который сочетает DPO (Directed Property Optimization) и SFT (Supervised Fine-Tuning). ReDPO позволяет студентской модели сосредоточиться на восстановлении ключевых свойств, а не на пассивном имитации учителя, что повышает качество. Кроме того, представлен видео-фильтрующий фреймворк V.I.P., обеспечивающий высококачественные наборы данных для калибровки моделей. Результаты показывают, что ReDPO и V.I.P. позволяют сократить параметры модели на 36.2% и 67.5% для VideoCrafter2 и AnimateDiff, сохраняя или превосходя качество полных моделей.

Annotation:

With growing interest in deploying text-to-video (T2V) models in resource-constrained environments, reducing their high computational cost has become crucial, leading to extensive research on pruning and knowledge distillation methods while maintaining performance. However, existing distillation methods primarily rely on supervised fine-tuning (SFT), which often leads to mode collapse as pruned models with reduced capacity fail to directly match the teacher's outputs, ultimately resulting in deg...

ID: 2508.03254v1 cs.CV, cs.AI

arXiv PDF

📄 BaroPoser: Real-time Human Motion Tracking from IMUs and Barometers in Everyday Devices

2025-08-06

Авторы:

Libo Zhang, Xinyu Yi, Feng Xu

**Резюме:** Отслеживание человеческого движения с использованием данных из IMU-датчиков, встроенных в повседневные устройства, такие как смартфоны и смартчасы, становится все более популярным. Однако существующие методы сталкиваются с проблемами точности оценки позы, особенно на неровной местности, из-за недостаточной плотности данных и отсутствия соответствующих наборов данных. Для решения этой проблемы, авторы представляют метод BaroPoser, который использует сочетание данных IMU и барометрических датчиков, записанных со смартфона и смартчасами. Барометрические данные позволяют оценивать изменения высоты датчиков, что улучшает точность оценки позы и позволяет предсказывать глобальные изменения положения на неровной местности. Кроме того, авторы предлагают локальную систему координат бедра для разделения локальных и глобальных компонентов движения, что улучшает обучение модели. Результаты экспериментов на общедоступных датасетах и реальных записях показывают, что BaroPoser превосходит современные методы, основанные только на IMU, при использовании той же аппаратной конфигурации.

Annotation:

In recent years, tracking human motion using IMUs from everyday devices such as smartphones and smartwatches has gained increasing popularity. However, due to the sparsity of sensor measurements and the lack of datasets capturing human motion over uneven terrain, existing methods often struggle with pose estimation accuracy and are typically limited to recovering movements on flat terrain only. To this end, we present BaroPoser, the first method that combines IMU and barometric data recorded by ...

ID: 2508.03313v1 cs.CV, cs.AI

arXiv PDF

📄 VLMQ: Efficient Post-Training Quantization for Large Vision-Language Models via Hessian Augmentation

2025-08-06

Авторы:

Yufei Xue, Yushi Huang, Jiawei Shao, Jun Zhang

**Резюме:** В статье представлен новый метод пост-тренировочной квантовки (PTQ) для эффективной компрессии крупных моделей визуально-языкового моделирования (VLM). Основная проблема заключается в несоответствии модальностей VLM: количество текстовых токенов ограничено, в то время как визуальные токены часто избыточны и излишне детализированы. Традиционные методы PTQ, основанные на гессиане и разработанные для крупных языковых моделей (LLM), не учитывают этот дисбаланс, что приводит к существенным потерям в производительности при применении к VLM. Для решения этой проблемы, авторы предложили VLMQ — фреймворк, оптимизированный для VLM. VLMQ использует объектив, учитывающий важность токенов, и вычисляет усиленный гессиан с токено-зависимыми факторами важности. Это позволяет сохранить эффективность параллелизируемых обновлений весов. Оптимизация выполняется через легковесный блочно-ориентированный бэкпроп, основанный на теоретической связи с токенно-уровневыми возмущениями. Эксперименты на 8 наборах данных показали, что VLMQ достигает нового уровня производительности, особенно при низкобитной квантовке. Например, под 2-битной квантовкой VLMQ показывает повышение производительности на **16.45%** на данных MME-RealWorld.

Annotation:

Post-training quantization (PTQ) has emerged as an effective approach for compressing large models and accelerating their inference without retraining. While PTQ has been extensively studied in the context of large language models (LLMs), its applicability to vision-language models (VLMs) remains underexplored. In this paper, we identify a modality discrepancy (\emph{i.e.}, limited text tokens \emph{vs.} excessive and redundant vision tokens) of VLMs. However, existing Hessian-based LLM PTQ meth...

ID: 2508.03351v1 cs.CV, cs.AI, cs.CL

arXiv PDF

📄 SCFlow: Implicitly Learning Style and Content Disentanglement with Flow Models

2025-08-06

Авторы:

Pingchuan Ma, Xiaopei Yang, Yusong Li, Ming Gui, Felix Krause, Johannes Schusterbauer, Björn Ommer

**Резюме:** SCFlow — это новое решение для неявного разделения стиля и содержания в визуальных моделях, которое избегает заморочки с явным разделением этих концептов. Обычно это сложно из-за их семантического перекрытия и субъективности человеческого восприятия. Существующие методы пытаются отделить стиль и содержание через генеративные или дискриминативные подходы, но сталкиваются с неоднозначностью этих задач. SCFlow использует подход flow-matching, чтобы обучить модель непосредственно слиянию стиля и содержания в обратимом процессе, позволяя разделение возникать естественным образом. Основные идеи заключаются в том, что: 1) обучение только на слияние этих концептов — это хорошо определенная задача; 2) flow-matching работает на произвольных распределениях, не ограничиваясь нормальными распределениями как в диффузионных моделях и нормализующих потоках; 3) синтетический датасет из 510 тысяч образцов (51 стиля × 10 тысяч содержаний) был создан для симуляции данного процесса. Кроме того, SCFlow демонстрирует хорошие результаты в задачах контролируемой генерации и нулевого шота на ImageNet-1k и WikiArt, показывая, что разделение содержания и стиля возникает естественным образом из обратимого процесса слияния.

Annotation:

Explicitly disentangling style and content in vision models remains challenging due to their semantic overlap and the subjectivity of human perception. Existing methods propose separation through generative or discriminative objectives, but they still face the inherent ambiguity of disentangling intertwined concepts. Instead, we ask: Can we bypass explicit disentanglement by learning to merge style and content invertibly, allowing separation to emerge naturally? We propose SCFlow, a flow-matchin...

ID: 2508.03402v1 cs.CV, cs.AI, cs.LG

arXiv PDF

1
2
1158
1159
1160
1161
1162

Показано 11591 - 11600 из 11614 записей