📚 Саммари научных статей из arXiv

Найдено 835 результатов по запросу 'cs.CV, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Evaluating Multiple Instance Learning Strategies for Automated Sebocyte Droplet Counting

2025-09-09

Авторы:

Maryam Adelipour, Gustavo Carneiro, Jeongkwon Kim

## Контекст В области биологии себоцитов, клетек, ответственных за секрецию жировых желез, периодически возникают проблемы с точным определением и счетом липидных дозодробелей. Эти структуры, образующиеся внутри клеток в процессе их развития, являются ключевым параметром для оценки себецитарного развития. Однако традиционный метод, основанный на ручном счете по изображениям, требует больших усилий и подвержен субъективности. Из-за этого, необходима разработка автоматизированных методов, обеспечивающих точный и нейтральный счет. Наша исследовательская цель посвящена поиску эффективной автоматической системы для счета липидных дозодробелей с помощью нескольких стратегий мульти-инстансного обучения (Multiple Instance Learning, MIL). ## Метод В этом исследовании применены два различных подхода для решения проблемы счета липидных дозодробелей. Первый, базовый многослойный перцептрон (MLP), работал на уровне патчей, агрегируя информацию по каждому отдельному куску изображения. Второй, более сложный, базировался на нескольких моделях MIL, использующих функции выделения ResNet-50, для придания веса каждому отдельному объекту в кадре. Эти модели были обучены с использованием данных, полученных из 14 классов оценки липидных дозодробелей, подготовленных с помощью зеленого цвета Nile Red для повышения точности изображений. Затем, для оценки стабильности и точности работы, проводились эксперименты с помощью пятикратного перекрёстного валидации. ## Результаты Наблюдалось различие в производительности между двумя использованными моделями. Базовый MLP оказался более стабилен, с массовой ошибкой (Mean Absolute Error, MAE) в 5.6, что демонстрирует достаточную точность в большинстве случаев. МО с использованием MIL, несмотря на то, что иногда показывал лучшую точность в определённых случаях, был менее устойчив (средний MAE = 10.7). Это отличие показывает, что традиционная агрегация уровня "слайдов" остается эффективной для простых сценариев, но требуется дополнительная оптимизация для мульти-инстансных моделей, чтобы они показали свои преимущества. ## Значимость Полученные результаты имеют значительное значение для анализа липидных дозодробелей в клетках себоцитов. Агрегирование на уровне слайдов (baseline MLP) оказалось простым, но эффективным подходом для быстрого и стабильного счета. МО MIL, хотя и продемонстрировало потенциал, требует дополнительных улучшений для достижения высокой стабильности. Эти результаты могут быть применены в системах автоматизации для легкого и точного определения себецитарных параметров, что у

Annotation:

Sebocytes are lipid-secreting cells whose differentiation is marked by the accumulation of intracellular lipid droplets, making their quantification a key readout in sebocyte biology. Manual counting is labor-intensive and subjective, motivating automated solutions. Here, we introduce a simple attention-based multiple instance learning (MIL) framework for sebocyte image analysis. Nile Red-stained sebocyte images were annotated into 14 classes according to droplet counts, expanded via data augmen...

ID: 2509.04895v1 cs.CV, cs.LG

arXiv PDF

📄 Robust Experts: the Effect of Adversarial Training on CNNs with Sparse Mixture-of-Experts Layers

2025-09-09

Авторы:

Svetlana Pavlitska, Haixi Fan, Konstantin Ditschuneit, J. Marius Zöllner

## Контекст Задача улучшения устойчивости конволюционных нейронных сетей (CNNs) к атакам адверсарного обучения остается значительной проблемой в области машинного обучения. Традиционные методы, такие как метод градиентной запущенности (PGD), требуют высоких вычислительных затрат и часто приводят к ухудшению качества обобщения. Однако увеличение модели capcity через использование спарсе микстов экспертов (MoE) layers может стать эффективным решением. Эти слои позволяют повысить модельную способность без увеличения затрат на процесс обработки входных данных. Наша мотивация заключается в изучении того, насколько эффективны MoE layers в решении проблемы устойчивости моделей CNN к адверсарным атакам. ## Метод Мы использовали ResNet архитектуры, обученные на CIFAR-100, для исследования влияния MoE layers на устойчивость к адверсарным атакам. Устанавливая один MoE layer в глубине модели, мы могли сократить размер сети без потери качества или увеличить модельную способность, значительно улучшив устойчивость к атакам PGD и AutoPGD. Для балансировки роутинга внутри MoE layers мы использовали switch loss. Это привело к росту специализации экспертов и созданию конкретных путей, которые являлись более устойчивыми к атакам. Экспериментируя с различными вариантами роутинга, мы убедились, что MoE layers могут быть эффективными в улучшении устойчивости, особенно при использовании заданных адверсарных техник обучения. ## Результаты Наши эксперименты показали, что внедрение одного MoE layer в глубину CNN может привести к увеличению устойчивости к атакам PGD и AutoPGD. Мы обнаружили, что switch loss способствует специализации экспертов и созданию устойчивых к атакам путей. Этот эффект позволил некоторым индивидуальным экспертам показать более высокую устойчивость, чем даже сама модель с роутингом. Эти наблюдения подтверждают, что MoE layers могут значительно улучшить устойчивость моделей CNN к адверсарным атакам, при этом не требуя больших вычислительных затрат. ## Значимость Результаты наших исследований могут быть применены в различных областях, где необходима устойчивая аналитика изображений, таких как безопасность цифровых систем, обработка изображений в сетях Интернета вещей (IoT), и сегментация изображений в медицине. Использование MoE layers дает значительные преимущества: увеличение устойчивости моделей, уменьшение вычислительных затрат, и улучшение качества модели. Это может иметь потенциал для развития современных моделей, улучшения безопасности AI-систем, и расширения моделей анализа изображений в различных приложениях. ## Выводы Мы доказали, что внедрение MoE layers в CNN может стать эффективным способо

Annotation:

Robustifying convolutional neural networks (CNNs) against adversarial attacks remains challenging and often requires resource-intensive countermeasures. We explore the use of sparse mixture-of-experts (MoE) layers to improve robustness by replacing selected residual blocks or convolutional layers, thereby increasing model capacity without additional inference cost. On ResNet architectures trained on CIFAR-100, we find that inserting a single MoE layer in the deeper stages leads to consistent imp...

ID: 2509.05086v1 cs.CV, cs.LG

arXiv PDF

📄 A Scalable Attention-Based Approach for Image-to-3D Texture Mapping

2025-09-09

Авторы:

Arianna Rampini, Kanika Madan, Bruno Roy, AmirHossein Zamani, Derek Cheung

#### Контекст Обработка 3D-текстур является ключевым элементом в создании реалистичного цифрового контента, но существующие методы сталкиваются с рядом проблем. Они требуют много времени, опираются на UV-карты и часто недостаточно точно отражают свойства исходных изображений. Эти ограничения затрудняют получение высококачественных 3D-текстур, что необходимо для создания реалистичных 3D-моделей. Наша исследовательская группа решилась сделать упор на новый подход, который избавился бы от этих ограничений, обеспечивая быструю и точную генерацию текстур. Мы предлагаем трансформер-базующуюся модель, которая может динамически создавать 3D-текстуры напрямую из сингулярного изображения и трехмерной сетки, без необходимости UV-карт и различных разновидностей дифференцируемого рендеринга. #### Метод Мы представляем новую модель, которая использует представление triplane, чтобы предсказать 3D-текстурное поле непосредственно из изображения и трехмерной меши. Модель включает в себя depth-based backprojection losses, которые позволяют обучаться с более высокой точностью и эффективностью. Основной архитектурой является трансформер, который обрабатывает последовательность входных данных и генерирует текстурный поиск. Мы также разработали простую и быструю технику для запуска, которая генерирует текстуры за 0.2 секунд на каждую модель. Это позволяет нашей модели быть применимой в реальных сценариях, где требуется быстрота и высокое качество. #### Результаты Мы проводили многочисленные эксперименты, используя различные данные, включая синтетические и реальные изображения с 3D-моделями. Мы сравнили нашу модель с современными алгоритмами, а также провели пользовательские оценки, чтобы оценить качество результатов. Наши результаты показали, что наш подход оказался более точным в точности и качестве текстур в сравнении с другими методами. Он также демонстрирует высокую скорость и эффективность, что делает его привлекательным для практических применений. #### Значимость Наш подход может применяться в различных областях, включая видеоигры, виртуальную реальность, а также в области компьютерной графики и рендеринга. Он предлагает существенные преимущества в скорости и качестве, что делает его выгодным в отраслях, где необходимо быстрое генерирование качественных 3D-текстур. Благодаря использованию трансформера и triplane-представления, мы добились не только улучшения точности, но и уменьшения времени обработки, что открывает новые возможности для быстрого 3D-контента. #### Выводы Мы предлагаем новую модель для

Annotation:

High-quality textures are critical for realistic 3D content creation, yet existing generative methods are slow, rely on UV maps, and often fail to remain faithful to a reference image. To address these challenges, we propose a transformer-based framework that predicts a 3D texture field directly from a single image and a mesh, eliminating the need for UV mapping and differentiable rendering, and enabling faster texture generation. Our method integrates a triplane representation with depth-based ...

ID: 2509.05131v1 cs.CV, cs.LG

arXiv PDF

📄 Robust Model Predictive Control Design for Autonomous Vehicles with Perception-based Observers

2025-09-09

Авторы:

Nariman Niknejad, Gokul S. Sankar, Bahare Kiumarsi, Hamidreza Modares

## Контекст Одна из основных задач в области автономного вождения — обеспечение безопасности и адекватности динамического поведения автомобилей в условиях нестандартных и ненормальных затруднений. Активное развитие глубокого обучения позволяет эффективно использовать сети научного предсказания, однако эти модели чувствительны к шуму и ошибкам в реальных условиях. Это приводит к неточностям в оценке состояния, которые могут привести к потере стабильности и травматическим ситуациям. Недостаток надежных методов для контроля систем с глубоким обучением в центре внимания научных исследований. Кроме того, существуют проблемы с поддержкой вычислительной эффективности и гарантиями стабильности в системах моделирующих прогнозируемые действия. ## Метод Разработанная методология основывается на моделирующем прогностическом контроле (MPC), учитывающем влияние шума в модулях основанных на глубоком обучении. Метод использует констрейнтированные зонотопы для оценки возможных расхождений в прогнозах, что позволяет учесть ненормальные и тяжеловатые распределения шума. Для уменьшения вычислительных затрат прогнозная модель преобразуется в линейную программу, включающую минковский-ляпуновскую функцию, а также добавляется смещение для предотвращения нестабильных решений. Для стабильности используются ляпуновские неравенства и зонотопные вычисления, охватывающие области возможных состояний. ## Результаты Проведены симуляции и эксперименты на виртуальных и реальных системах. На основе реальных данных о сенсорном восприятии водителя проводились эксперименты на мобильном роботе с данными от зеркала-контроллера и аппаратуры распознавания объектов. Результаты показали, что разработанный подход эффективно контролирует систему, даже при ненормальных шумах, обеспечивая высокую точность и стабильность динамики. За счет использования констрейнтов зонотопов получены более точные оценки состояния водителя, что положительно сказывается на стабильности системы. ## Значимость Разработанный подход успешно применяется в автономных транспортных системах, предоставляя более точные прогнозы в условиях ненормальных шумов. Он может использоваться в робототехнике и системах поддержки решений в транспортных сетях. Работа показывает, что системы на основе зонотопов могут предсказать тяжеловатые распределения шума и латентные сигналы, что значительно повышает безопасность и точность объектной оценки в условиях реальных условий. ## Выводы Разработанный метод MPC предлагает сильный фундамент для надежного контроля автоно

Annotation:

This paper presents a robust model predictive control (MPC) framework that explicitly addresses the non-Gaussian noise inherent in deep learning-based perception modules used for state estimation. Recognizing that accurate uncertainty quantification of the perception module is essential for safe feedback control, our approach departs from the conventional assumption of zero-mean noise quantification of the perception error. Instead, it employs set-based state estimation with constrained zonotope...

ID: 2509.05201v1 cs.RO, cs.CV, cs.LG, cs.SY, eess.SY

arXiv PDF

📄 Symbolic Graphics Programming with Large Language Models

2025-09-09

Авторы:

Yamei Chen, Haoquan Zhang, Yangyi Huang, Zeju Qiu, Kaipeng Zhang, Yandong Wen, Weiyang Liu

## Контекст Программирование символических графических программ (SGPs) — это область, в которой целью является генерировать программы, которые рендерятся в визуальное содержимое. Это задача значимой технической и научной значимости, так как она позволяет оценить власти моделей языка в понимании и выражении визуального контекста. Ранее, большие языковые модели (LLMs) доказали свою эффективность в задачах программного синтеза, но их потенциал в генерации SGPs, которые требуют точного визуального представления, остается мало исследованным. Однако именно это возможность генерировать визуально точные и интерпретируемые программы делает SGPs ценным инструментом для изучения кросс-модального понимания LLMs. Этот аспект был исследован в работе "Symbolic Graphics Programming with Large Language Models", где авторы рассматривают возможности LLMs в генерации SGPs и предлагают методы, улучшающие их качество и точность. ## Метод Методология исследования основывается на создании комплексного бенчмарка, SGP-GenBench, который оценивает три ключевые аспекта: точность в описании объектов, сцен, и связи атрибутов. Были использованы различные модели языка, включая общедоступные и проприетарные, чтобы оценить их эффективность в жизнеобразных условиях. Для улучшения генерации SGPs был предложен метод, объединяющий развитие графических программ с подкреплением методами обучения. Решения включают в себя: - **Формат-валидацию SVG**: гарантирует, что генерируемые программы могут быть правильно рендерины. - **Кросс-модальная оценка**: использование визуальных моделей, таких как SigLIP и DINO, чтобы выравнивать текстовые описания и рендеринг. ## Результаты В ходе экспериментов было установлено, что модели с открытым исходным кодом проявляют значительные ограничения в сравнении с проприетарными моделями. Решение, основанное на RL, позволило повысить качество генерации SVG до уровня, сопоставимого с лидирующими решениями. Особенно выдающимися результатами оказались улучшения в композиции сцен, точности в управлении объектами и контекстной целостности. ## Значимость Результаты демонстрируют, что LLMs могут использоваться для точной генерации SGPs, что имеет большое значение в таких областях как визуальное описание, графическое дизайн и визуализация данных. Также, это открывает пути для исследований в кросс-модальном понимании, так как SGPs могут служить интерпретируемым способом изучения визуальных синтеза LLMs. ## Выводы Выводы авторов гласят, что метод RL с верификацией реверенса значительно повышает качество гене

Annotation:

Large language models (LLMs) excel at program synthesis, yet their ability to produce symbolic graphics programs (SGPs) that render into precise visual content remains underexplored. We study symbolic graphics programming, where the goal is to generate an SGP from a natural-language description. This task also serves as a lens into how LLMs understand the visual world by prompting them to generate images rendered from SGPs. Among various SGPs, our paper sticks to scalable vector graphics (SVGs)....

ID: 2509.05208v1 cs.CV, cs.LG

arXiv PDF

📄 LatticeWorld: A Multimodal Large Language Model-Empowered Framework for Interactive Complex World Generation

2025-09-09

Авторы:

Yinglin Duan, Zhengxia Zou, Tongwei Gu, Wei Jia, Zhan Zhao, Luyi Xu, Xinzhu Liu, Yenan Lin, Hao Jiang, Kang Chen, Shuang Qiu

## Контекст Развитие 3D-моделей, имитирующих реальные ситуации, стало вызовом для современных исследований. Эти модели применяются в областях, таких как обеспечение искусственного интеллекта, самостоятельное вождение автомобилей, развлекательные продукты и другие. Более реалистичная симуляция, основанная на точной физике, может существенно снизить проблему разницы между симуляцией и реальностью, а также облегчить сбор информации о реальном мире. Традиционные ручные методы моделирования позволили создавать виртуальные 3D-сцены, однако современные подходы основываются на машинном обучении, которое способно генерировать 3D-миры на основе пользовательских инструкций. Целью данного исследования является описание LatticeWorld, инновационного фреймворка для создания динамичных 3D-миров, который объединяет легкие легковесные легковесные легковесные лэнгвидж модели (LLaMA-2-7B) и промышленно-классные рендеринговые системы (например, Unreal Engine 5). Он принимает текстовые описания и визуальные инструкции в качестве мультимодальных входных данных и генерирует большие, сложные миры с динамическими агентами, в том числе с высоким качеством визуализации и физических симуляций. ## Метод LatticeWorld предлагает интеграцию легковесных легковесных легковесных моделей с высококачественными рендеринговыми технологиями. Основная архитетктура фреймворка основывается на трех основных компонентах: (1) легковесная модель языка (LLaMA-2-7B) для обработки текстовых и визуальных входных данных, (2) промышленного рендеринга Unreal Engine 5 для динамического симулирования физики и (3) сложной архитектуры обработки мультимодальных данных, что позволяет генерировать подробные 3D-сцены. Метод предполагает начальную инициализацию сцены на основе текстовых инструкций, затем последовательное уточнение модели с использованием визуальных данных. Это позволяет создавать динамические интерактивные миры с высокой точностью визуализации и непосредственным взаимодействием с агентами. ## Результаты Используя этот подход, LatticeWorld был протестирован на широком спектре задач, включая генерацию сцен с высоким разрешением, мультиагентных интеракций и реалистичных физических симуляций. Конкретные эксперименты показали, что LatticeWorld достигает существенно более высокого уровня точности в сценах с разрешением $90\times$, сравнив с традиционными методами генерирования 3D-сцен. Эксперименты также показали намного вышу качество визуализации и возможность сжатых субъективных инструкций. Эти результаты подтверждают возможно

Annotation:

Recent research has been increasingly focusing on developing 3D world models that simulate complex real-world scenarios. World models have found broad applications across various domains, including embodied AI, autonomous driving, entertainment, etc. A more realistic simulation with accurate physics will effectively narrow the sim-to-real gap and allow us to gather rich information about the real world conveniently. While traditional manual modeling has enabled the creation of virtual 3D scenes,...

ID: 2509.05263v2 cs.AI, cs.CV, cs.LG

arXiv PDF

📄 TensoIS: A Step Towards Feed-Forward Tensorial Inverse Subsurface Scattering for Perlin Distributed Heterogeneous Media

2025-09-06

Авторы:

Ashish Tiwari, Satyam Bhardwaj, Yash Bachwana, Parag Sarvoday Sahu, T. M. Feroz Ali, Bhargava Chintalapati, Shanmuganathan Raman

## Контекст Оценка параметров рассеяния в многообразных подземных средах представляется одной из самых сложных задач в области инверсных задач. Исследователи часто используют анализ-по-синтез или различные градиентные методы для решения этой задачи. Однако, многие из этих подходов ограничиваются небольшими изменениями в геометрии или структуре среды, не учитывая сложные и непредсказуемые искажения, которые могут возникнуть в реальных объектах. Другие подходы, основанные на различности, требуют высокой плотности сигнала и не всегда могут корректно работать с реальными темиными данными. Добавляя сложность, большинство существующих работ оставляют за собой решение задачи, ориентируясь на лишь часть ситуации, в основном, на одну конкретную форму или материал. Наша исследовательская группа стремилась развить новый, более общий подход к этой проблеме, используя процедурные модели шума, такие как Perlin и Fractal Perlin, для моделирования рассеяния в динамических, неоднородных подземных средах. ## Метод Мы предлагаем TensoIS, нейросетевую модель, которая использует представление в виде низкоранговых тензоров для описания рассеяния в многообразных подземных средах. Модель TensoIS построена на основе Perlin Perlin noise, который моделирует сложные и непредсказуемые характеристики многообразных подземных сред. Мы разработали HeteroSynth — синтетический набор данных, содержащий перспективно съемки многообразных рассеяний в трехмерных средах, где рассеяние описано с помощью Perlin Perlin noise. Для обучения TensoIS мы сформировали несколько компонент низкого ранга, представляющих тривиальные распределения внутренних свойств материала. Эти компоненты используются для построения тензорной модели рассеяния. Мы тестировали TensoIS на нескольких наборах данных, включая синтетические данные HeteroSynth, реальные объекты и даже сложные геометрии, такие как дым и тучи. ## Результаты В ходе экспериментов TensoIS показал высокую точность в оценке рассеяния в трехмерных многообразных подземных средах. Мы сравнили результаты TensoIS с моделями, основанными на других методах, таких как градиентные оптимизации и анализ-по-синтез. TensoIS демонстрировал значительное превосходство в точности и скорости работы, особенно при работе с большими многообразными подземными материалами. Мы также проверили TensoIS на реальных данных, таких как тучи и дым, и получили очень высокую точность в оценке рассеяния. ## Значимость Мы видим в TensoIS значительный улучшение в области инверсных задач рассеяния в подземных средах. Модель TensoIS может быть использована в различных приложениях, таких как мет

Annotation:

Estimating scattering parameters of heterogeneous media from images is a severely under-constrained and challenging problem. Most of the existing approaches model BSSRDF either through an analysis-by-synthesis approach, approximating complex path integrals, or using differentiable volume rendering techniques to account for heterogeneity. However, only a few studies have applied learning-based methods to estimate subsurface scattering parameters, but they assume homogeneous media. Interestingly, ...

ID: 2509.04047v1 cs.GR, cs.CV, cs.LG

arXiv PDF

📄 DUDE: Diffusion-Based Unsupervised Cross-Domain Image Retrieval

2025-09-06

Авторы:

Ruohong Yang, Peng Hu, Yunfan Li, Xi Peng

#### Контекст Unsupervised cross-domain image retrieval (UCIR) — это задача поиска изображений одной категории в разных доменах без использования меток. Основная проблема UCIR заключается в том, что различия между доменами (domain gap) делают объектные признаки, необходимые для поиска, затуманенными и смешанными с доменно-специфическими стилями. Эта сложность приводит к неэффективности существующих методов, которые стремятся выравнивать все признаки сразу. Мы предлагаем DUDE — новый подход, основывающийся на разделении признаков (disentanglement) с использованием текстово-графических генеративных моделей. Он делит признаки на две части: объектные и домен-специфические, что позволяет лучше выделить объект и уменьшить эффект доменного фактора. #### Метод DUDE использует текстовую генеративную модель для создания картинки с указанием только объекта, независимо от домена. Это позволяет получить чистые объектные признаки, которые можно сравнивать между разными доменами. Для достижения надежного выравнивания этих признаков между доменами, DUDE применяет прогрессивную методику выравнивания, начиная с ближайших соседей внутри доменов и расширяя это до соседей между доменами. Эта постепенная подходка помогает обеспечить точность и стабильность в процессе восстановления изображений. #### Результаты Мы проверили DUDE на трех бенчмарк-датасетах, содержащих 13 доменов. Результаты показали, что DUDE превосходит существующие методы по всем основным метрикам — Recall@K, Precision@K и Normalized Mutual Information (NMI). Например, на CUB-200-2011 DUDE дает Recall@1 45.1%, что значительно превосходит следующий за ним метод (38.6%). Такие результаты доказывают высокую точность и стабильность DUDE в сложных сценариях междоменного поиска. #### Значимость DUDE может применяться в различных областях, таких как поиск изображений для экспертизы, рекомендательные системы, искусственный интеллект в сфере графики. Он предлагает существенное преимущество перед существующими методами благодаря способности выделять объектные признаки, не зависящие от домена. Это улучшает качество и точность поиска изображений, особенно в сценариях с широким диапазоном доменов. #### Выводы DUDE продемонстрировал свою эффективность в решении проблемы UCIR, используя принцип разделения признаков. Он достиг новых рекордов по точности в тестируемых наборах данных. Будущие работы будут направлены на улучшение метода для более широких платформ и задач, а также на поиск возможностей для его интеграции с другими технологиями.

Annotation:

Unsupervised cross-domain image retrieval (UCIR) aims to retrieve images of the same category across diverse domains without relying on annotations. Existing UCIR methods, which align cross-domain features for the entire image, often struggle with the domain gap, as the object features critical for retrieval are frequently entangled with domain-specific styles. To address this challenge, we propose DUDE, a novel UCIR method building upon feature disentanglement. In brief, DUDE leverages a text-t...

ID: 2509.04193v1 cs.CV, cs.LG

arXiv PDF

📄 Virtual Fitting Room: Generating Arbitrarily Long Videos of Virtual Try-On from a Single Image -- Technical Preview

2025-09-06

Авторы:

Jun-Kun Chen, Aayush Bansal, Minh Phuoc Vo, Yu-Xiong Wang

#### Контекст Область виртуальных примерок одежды (virtual try-on) увлекательна и новаторна, особенно с учетом возрастающего интереса к интерактивному онлайн-шопингу. Существующие методы часто ограничены в длине генерируемых видео, что не позволяет охватить разнообразие движений пользователя или длительные сценарии. Это связано с техническими вызовами, связанными с ресурсоемкостью генерирования и необходимостью обрабатывать большие объемы данных. Мотивация для этого исследования заключается в развитии модели, которая сможет генерировать длинные видео с высокой степенью реализму и постоянства, оптимизируя ресурсы и увеличивая гибкость. #### Метод Методология Virtual Fitting Room (VFR) основывается на подходе, основанном на авторегрессии и разбиении задачи на сегменты. Основная идея заключается в том, чтобы генерировать видео по-очереди, начиная с префикса, который обеспечивает локальную сглаженность, и использовать анкор-видео (360-градусный тур вокруг человека) для поддержки глобального временного синхронизации. Архитектура VFR включает в себя модели генерирования, редактирования и совмещения видео, чтобы обеспечить гладкость и консистентность. Этот подход исключает необходимость тяжеловесных вычислительных операций и длительного ролика, позволяя генерировать видео длиной до нескольких минут. #### Результаты В ходе экспериментов VFR было протестировано на различных данных, включая разнообразные полноелобные видео. Модель показала высокую точность в генерировании видео, где каждый кадр был сглажен с предыдущими и дальнейшими, при этом сохранялась всюдуто глобальная консистентность. Особенно значимы результаты в сценариях, где пользователь делает многообразные движения, так как VFR адаптируется к этим изменениям, сохраняя качество кадра и временной последовательности. #### Значимость Потенциал VFR распространяется на множество областей, включая онлайн-трейдинг, интерактивные технологии, а также развитие реального видео-создания. Одним из основных преимуществ является уменьшение ресурсоемкости при генерировании видео, что делает VFR более доступным для различных приложений. Благодаря своей уникальности, модель может стать инструментом для повышения пользовательского опыта в интернет-магазинах, а также для развития научных исследований в области видео-генерации. #### Выводы Выводы экспериментов подтверждают эффективность VFR в генерировании длительных видео с высокой степенью реалистичности и сглаженности. Будущие исследования будут сконцентрированы на улучшении качества генерирования, внед

Annotation:

We introduce the Virtual Fitting Room (VFR), a novel video generative model that produces arbitrarily long virtual try-on videos. Our VFR models long video generation tasks as an auto-regressive, segment-by-segment generation process, eliminating the need for resource-intensive generation and lengthy video data, while providing the flexibility to generate videos of arbitrary length. The key challenges of this task are twofold: ensuring local smoothness between adjacent segments and maintaining g...

ID: 2509.04450v1 cs.CV, cs.LG

arXiv PDF

📄 LLaVA-Critic-R1: Your Critic Model is Secretly a Strong Policy Model

2025-09-05

Авторы:

Xiyao Wang, Chunyuan Li, Jianwei Yang, Kai Zhang, Bo Liu, Tianyi Xiong, Furong Huang

## Контекст Область визуально-языковых моделей (Vision-Language Models, VLM) широко применяется в задачах визуального понимания и решении интеллектуальных задач. Одним из ключевых элементов этих моделей являются критические модели (critic models), которые обычно используются для оценки и поддержания качества генерируемых ответов, а не для их генерации. Это разделение между критическими и политическими моделями (policy models) во многом стало привычкой, хотя оно ограничивает потенциал моделей. В данной работе мы выступаем за перемену этого подхода, предлагая переорганизовать критические данные с приоритетом предпочтений (preference-labeled critic datasets) в подходящий вид для тренировки, чтобы объединить возможность оценки и генерации в одной модели. ## Метод Мы предлагаем реконструировать критические данные, используя процедуру рейтинга по приоритетам (preference-based ranking), чтобы обеспечить тренировку моделей с помощью реинфорсментного обучения (reinforcement learning, RL). Этот подход преобразует критические модели в полноценные политические модели, которые не только оценивают, но и генерируют ответы. Мы применяем этот подход к модели LLaVA-Critic-R1, которая является начальной моделью типа critic, но обучается с помощью RL для достижения качества политической модели. Этот процесс включает в себя использование данных, относящихся к определенной тематике, и тренировку модели для оптимизации приоритетов предпочтений. ## Результаты Мы проводили эксперименты с LLaVA-Critic-R1 на 26 задачах визуального понимания и решения. Она показала себя как высококачественная критическая модель и, в то же время, как мощная политическая модель. Особенно заметна была ее способность повысить качество генерации ответов, набрав до 5.7% больше, чем базовая модель (Qwen-2.5-VL-7B). Мы также расширили этот подход, создав LLaVA-Critic-R1+, которая дает еще большее улучшение в политических моделях без потери качества критического анализа. На репрезентативной метрике MMMU она достигла рекордного результата 71.9 при работе на семи миллиардах параметров. Наконец, мы проверили, как самокритический анализ во время тестирования может улучшить результаты в пяти визуальных задачах, набрав до 13.8% improvements. ## Значимость Наш подход открывает новые возможности для создания универсальных моделей, которые обладают как критическими, так и политическими способностями. Это значительно увеличивает скейлинг и самоподготовление моделей в области визуального понимания. Мы показываем, что модели, обученные с использованием наших методов, могут быть применены в различных задачах, включая логическое р vine-reasoning и визуальное понимание. Это делает нашу работу важной для развития самоо

Annotation:

In vision-language modeling, critic models are typically trained to evaluate outputs -- assigning scalar scores or pairwise preferences -- rather than to generate responses. This separation from policy models, which produce the responses, is so entrenched that critics are rarely considered for direct policy use. In this work, we challenge this convention. We propose to reorganize preference-labeled critic datasets into verifiable training signals and perform reinforcement learning directly on a ...

ID: 2509.00676v1 cs.CV, cs.LG

arXiv PDF

1
2
63
64
65
66
67
83
84

Показано 641 - 650 из 835 записей