📚 Саммари научных статей из arXiv

Найдено 2274 результатов по запросу 'cs.CV, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Cut2Next: Generating Next Shot via In-Context Tuning

2025-08-13

Авторы:

Jingwen He, Hongbo Liu, Jiajun Li, Ziqi Huang, Yu Qiao, Wanli Ouyang, Ziwei Liu

## Контекст Многошаговое генерирование видео требует строгого соблюдения направления и выразительности. Однако существующие методы часто сфокусированы на визуальной консистенции, не учитывая развития истории и кинематографических паттернов, которые необходимы для насыщенной и гармоничной истории. Мы предлагаем библиотеку Cut2Next для генерирования следующего кадра с помощью ин-контекстного уточнения. Она сочетает в себе трансформеры Diffusion (DiT) и новую стратегию верхнеуровневого вмешательства. Эта стратегия включает в себя целостные и взаимосвязанные сигналы для определения текстового контекста, редактирования и визуальных атрибутов. Наша модель учитывает все эти аспекты, чтобы создавать динамичные и научно корректные сцены, полностью соответствующие профессиональным стандартам кино. ## Метод Cut2Next основывается на Diffusion Transformer (DiT), который использует ин-контекстное уточнение с помощью Hierarchical Multi-Prompting (HMP). Эта стратегия включает в себя два типа стимулов: Relational Prompts (для целостного контекста) и Individual Prompts (для подробностей каждого кадра). Модель также включает два инновационных компонента: Context-Aware Condition Injection (CACI) и Hierarchical Attention Mask (HAM). CACI обеспечивает интеграцию нескольких источников сигналов, а HAM управляет вниманием в зависимости от ранга кадра. Эти технологии позволяют модели работать с высокой точностью и сохранять гармонию с редактированием и историей. ## Результаты Мы провели эксперименты на двух новых больших данных: RawCuts и CuratedCuts, каждый с верхнеуровневыми стимулами. Мы также представили CutBench — метрику для оценки качества следующего кадра. Результаты показали, что Cut2Next превосходит существующие методы в консистенции визуального содержимого и точности в задании текстового содержания. Разработанные пользовательские исследования показали, что Cut2Next предпочтительнее в выражении желаемых редактируемых паттернов и обеспечении кинематографической непрерывности. ## Значимость Мы видим широкие реализационные возможности для Cut2Next в области кино, интерактивных медиа и платформ широкого потребления. Она может повысить эффективность производства видео, обеспечивая профессиональное качество и синхронность. Модель также открывает новые возможности для создания глубоких и кинематографически многослойных историй. Кроме того, в будущем можно расширить её возможности для интерактивных и виртуальных реалий, где глубокая редактирования и выразительность ключевыми характеристиками. ## Выводы Cut2Next — это первый подход, который сочетает в себя высокое качество, кинематографическую непрерывно

Annotation:

Effective multi-shot generation demands purposeful, film-like transitions and strict cinematic continuity. Current methods, however, often prioritize basic visual consistency, neglecting crucial editing patterns (e.g., shot/reverse shot, cutaways) that drive narrative flow for compelling storytelling. This yields outputs that may be visually coherent but lack narrative sophistication and true cinematic integrity. To bridge this, we introduce Next Shot Generation (NSG): synthesizing a subsequent,...

ID: 2508.08244v2 cs.CV, cs.AI

arXiv PDF

📄 UnGuide: Learning to Forget with LoRA-Guided Diffusion Models

2025-08-12

Авторы:

Agnieszka Polowczyk, Alicja Polowczyk, Dawid Malarz, Artur Kasymov, Marcin Mazur, Jacek Tabor, Przemysław Spurek

## Контекст В последние годы, большие текстово-изображения диффузионные модели получили широкое распространение, включая такие приложения, как Stable Diffusion. Однако эти модели также вызывают значительные вопросы, в частности, возможность их нежелательного применения для создания вредоносного или неточного контента. Это вызывает необходимость в разработке методов машинного "учения забывать", то есть удалять конкретные понятия или знания из предобученных моделей без существенного повреждения их общей производительности. Одним из подходов является Low-Rank Adaptation (LoRA), которая позволяет эффективно настраивать модели для определенных задач удаления. Тем не менее, LoRA часто неточно удаляет ненужные концепции, что приводит к потере фидерности и реализма изображений. Для решения этого проблемы предлагается UnGuide — новый подход, который использует UnGuidance, динамическую механизм, основанную на Classifier-Free Guidance (CFG), для точного управления процессом удаления. ## Метод UnGuide включает в себя два основных компонента: LoRA adapter и UnGuidance. LoRA adapter применяется для локализованного изменения весов модели, чтобы удалить конкретные понятия. UnGuidance, в свою очередь, динамически регулирует процесс диффузии с помощью Classifier-Free Guidance (CFG), который определяет, какой компонент (LoRA или базая модель) будет основным в сгенерированном изображении. Это регулирование основано на оценке стабильности начальных этапов диффузионного процесса. Если процесс удаления нужного понятия достаточно стабилен, то LoRA будет преобладать. В противном случае, базовая модель будет приводить к генерации более фидерного и реалистичного изображения, сохраняя фидерность и качество. ## Результаты На ряде экспериментов было продемонстрировано, что UnGuide эффективно удаляет целевые понятия из текстово-изображений диффузионных моделей, сохраняя высокую фидерность и реалистичность изображений. Он показывает лучшую производительность по сравнению с другими методами LoRA в задачах удаления объектов и контента. Кроме того, UnGuide позволяет значительно снизить потери фидерности, которые характерны для LoRA, когда она применяется к диффузионным моделям. Эксперименты проводились на стандартных датасетах, подтверждающих высокую эффективность метода. ## Значимость UnGuide может быть применен в различных областях, включая защиту от нежелательного контента, удаление личных данных, а также в области моральных и этических вопросов, связанных с использованием AI. Одним из основных преимуществ является высокая точность удаления целевого контента без существенных потерь в качестве изображений. В будущем, UnGuide может быть расширен для работы с другими типами моделей, такими как

Annotation:

Recent advances in large-scale text-to-image diffusion models have heightened concerns about their potential misuse, especially in generating harmful or misleading content. This underscores the urgent need for effective machine unlearning, i.e., removing specific knowledge or concepts from pretrained models without compromising overall performance. One possible approach is Low-Rank Adaptation (LoRA), which offers an efficient means to fine-tune models for targeted unlearning. However, LoRA often...

ID: 2508.05755v1 cs.CV, cs.AI

arXiv PDF

📄 Few-Shot Deployment of Pretrained MRI Transformers in Brain Imaging Tasks

2025-08-12

Авторы:

Mengyu Li, Guoyao Shen, Chad W. Farris, Xin Zhang

## Контекст Машинное обучение с использованием трансформеров показало свою эффективность в области медицинской иммуниграфии. Однако, несомненно, применение этих моделей в реальной клинической практике сталкивается с рядом проблем, в том числе их зависимость от больших объемов отмеченных данных, что делает их реализацию в условиях дефицита данных весьма сложной. Наша исследовательская группа изучает возможность применения трансформеров в нейроиммуниграфии с минимальным количеством отмеченных данных. Наша мотивация заключается в том, чтобы развить методики, позволяющие эффективно использовать трансформеры в реальных клинических условиях, в том числе тех, что связаны с нейроиммуниграфией. ## Метод Мы основываем нашу работу на формировании высококачественных представлений входных данных с помощью Masked Autoencoder (MAE). Для этих целей мы используем трансформеры в качестве модели обучения с малоизвестными объемами данных. В качестве базы данных для обучения выбрана многокогортная коллекция данных по более чем 31 миллионам срезов брайн-иммуниграфии. Для высокоуровневых задач, таких как классификация, мы применяем замороженный модуль MAE с вспомогательной линейной головкой, чтобы оптимизировать задачи идентификации последовательностей MRI. Для низкоуровневых задач, таких как сегментация, мы предлагаем гибридную архитектуру MAE-FUnet, которая объединяет мультискалярные функции CNN с эмбеддингами MAE. ## Результаты Мы проводим ряд экспериментов, в том числе классификационные и сегментационные задачи на больших коллекциях данных. Наши результаты показывают, что MAE-фреймворк эффективно работает в ситуациях с малоизвестными данными, обеспечивая сохранение высокой точности в классификации последовательностей MRI в минимальном количестве супервайзда. Для задач сегментации мы выявили, что MAE-FUnet значительно превосходит другие модели в задачах скелетного очистки и многоклассовой сегментации анатомических структур, даже при минимальных объемах данных. Мы также проводим тестирование на различных медицинских базах данных, чтобы продемонстрировать широту применения нашего подхода. ## Значимость Наш фреймворк имеет широкое применение в современной нейроиммуниграфии, в том числе в задачах идентификации последовательностей и сегментации. Он предлагает высокую степерь трансфертивности и эффективность, что делает его привлекательным для использования в клинических условиях с ограниченным количеством данных. Этот подход также может быть применен в других областях медицинской иммуниграфии, что увеличивает его значимость для развити

Annotation:

Machine learning using transformers has shown great potential in medical imaging, but its real-world applicability remains limited due to the scarcity of annotated data. In this study, we propose a practical framework for the few-shot deployment of pretrained MRI transformers in diverse brain imaging tasks. By utilizing the Masked Autoencoder (MAE) pretraining strategy on a large-scale, multi-cohort brain MRI dataset comprising over 31 million slices, we obtain highly transferable latent represe...

ID: 2508.05783v1 cs.CV, cs.AI

arXiv PDF

📄 A 3DGS-Diffusion Self-Supervised Framework for Normal Estimation from a Single Image

2025-08-12

Авторы:

Yanxing Liang, Yinghui Wang, Jinlong Yang, Wei Li

#### Контекст Голографические системы, использующие диффузионные методы для получения нормалей из одного изображения, становятся важной областью исследований в сфере машинного зрения и виртуальной реальности. Однако существуют значительные проблемы, такие как недостаточная информация о пространственных измерениях, неполное моделирование взаимодействия света с поверхностью и недостаточная точность в реконструкции трёхмерных геометрических форм. Эти проблемы приводят к конфликту нормалей при многократном просмотре и затрудняют обучение сетей без использования больших объёмов данных с аннотациями нормалей. #### Метод Предлагаемый подход, SINGAD (Self-supervised framework from a single Image for Normal estimation via 3D GAussian splatting guided Diffusion), основан на интеграции физически обоснованного моделирования взаимодействия света и диффузионной модели с разными масштабами. Он включает в себя дифференцируемую 3D-репроекцию для самостоятельного обучения, которая позволяет оптимизировать нормали непосредственно из 3D-геометрических ошибок. Основные моменты: - Репараметризация 3DGS для построения геометрически консистентных фичей с учётом законов светопропускания. - Модуль для скрещивания доменных признаков для контроля нормалей с помощью условной дифференцируемой модели. - Репроекционная стратегия для самостоятельного улучшения модели. #### Результаты На Google Scanned Objects dataset, SINGAD показал существенное превосходство по нескольким метрикам в сравнении с алгоритмами стандартного уровня. Он достиг высокой точности нормалей и устранил конфликты при многократном просмотре, что достигнуто благодаря использованию трёхмерной модели Гаусса и различным оптимизируемым нормали. Это дало возможность улучшить качество генерации нормалей в сравнении с другими диффузионными подходами. #### Значимость Предложенный подход может применяться в сферах, таких как виртуальная реальность, игровые движки, а также для реконструкции трёхмерных моделей на основе одного изображения. Он предлагает выгоды в скорости обучения, уменьшает зависимость от предобученных моделей и улучшает точность нормалей. Будущие исследования могут сфокусироваться на улучшении модели применения в тяжёлых условиях, таких как низкоконтрастные изображения или нестандартные предметы. #### Выводы Предложенный SINGAD-подход демонстрирует перспективность в самостоятельном обучении нормалей из одного изображения. Он решает проблему недостатка данных и геометрической непостоянствой в диффузионных подходах, достигая точности и консистентности, ранее не достигнутой. Будущие исследования бу

Annotation:

The lack of spatial dimensional information remains a challenge in normal estimation from a single image. Recent diffusion-based methods have demonstrated significant potential in 2D-to-3D implicit mapping, they rely on data-driven statistical priors and miss the explicit modeling of light-surface interaction, leading to multi-view normal direction conflicts. Moreover, the discrete sampling mechanism of diffusion models causes gradient discontinuity in differentiable rendering reconstruction mod...

ID: 2508.05950v1 cs.CV, cs.AI

arXiv PDF

📄 Bifrost-1: Bridging Multimodal LLMs and Diffusion Models with Patch-level CLIP Latents

2025-08-12

Авторы:

Han Lin, Jaemin Cho, Amir Zadeh, Chuan Li, Mohit Bansal

#### Контекст В последние годы возросло интерес к созданию систем, объединяющих мощные возможности предсказания и разума текстовых моделей с высококачественным генерированием изображений. Однако существующие методы, призванные объединить эти области, часто сталкиваются с трудностями. Они либо неэффективны в процессе обучения, либо не полностью сохраняют многомодальные способности моделей. Это ограничивает их удобство и применение в реальных задачах. В этом контексте возникает мотивация для разработки эффективных и универсальных методов, объединяющих текстовые и изображения. #### Метод Мы предлагаем Bifrost-1 — универсальный фреймворк, связывающий мультимодальные текстовые модели (MLLMs) и модели размытия (diffusion models) с использованием патч-уровневых встроенных визуальных эмбеддингов CLIP. Эти эмбеддинги генерируются на основе входных изображений и адаптируются с помощью упрощенной версии ControlNet. Для сохранения многомодальных возможностей MLLM, мы добавляем в модель визуальную генерацию, инициализированную оригинальными параметрами модели. Это позволяет Bifrost-1 применять свои визуальные способности в процессе работы. Такое решение обеспечивает высокую эффективность обучения и высокое качество визуального генерирования. #### Результаты Мы проводили эксперименты, используя различные данные и задачи, включая задачи генерирования изображений на основе текста. Благодаря нашему подходу, модель показала сравнительно лучшие результаты по фидбеку пользователей и оценкам визуального качества. Мы также приводим абляционные исследования, подтверждающие эффективность используемых технических решений. #### Значимость Bifrost-1 может быть применен в сферах, где требуется сочетание текстового понимания с высококачественным генерированием изображений. Например, в области создания контента, интерактивных игр или работы с данными. Он обеспечивает высокую эффективность обучения, что снижает затраты ресурсов, и позволяет передавать текстовые концепции в визуальный формат с высоким качеством. #### Выводы Результаты наших исследований подтверждают эффективность Bifrost-1 в сочетании текстовых и визуальных моделей. Наша работа открывает новые пути для будущих исследований в области мультимодальных моделей, снижая затраты времени и ресурсов на их обучение. Мы планируем продолжать работу над улучшением Bifrost-1, в том числе в эффективности, универсальности и расширении его применения.

Annotation:

There is growing interest in integrating high-fidelity visual synthesis capabilities into large language models (LLMs) without compromising their strong reasoning capabilities. Existing methods that directly train LLMs or bridge LLMs and diffusion models usually suffer from costly training since the backbone LLMs have not seen image representations during pretraining. We present Bifrost-1, a unified framework that bridges pretrained multimodal LLMs (MLLMs) and diffusion models using patch-level ...

ID: 2508.05954v1 cs.CV, cs.AI, cs.CL

arXiv PDF

📄 ETA: Energy-based Test-time Adaptation for Depth Completion

2025-08-12

Авторы:

Younjoon Chung, Hyoungseob Park, Patrick Rim, Xiaoran Zhang, Jihe He, Ziyao Zeng, Safa Cicek, Byung-Woo Hong, James S. Duncan, Alex Wong

## Контекст Глубинная сегментация — это ключевая задача в области компьютерного зрения, которая направлена на определение глубины объектов в изображениях. Одна из сложных проблем этой области — **тестовый временной адаптация (Test-Time Adaptation, TTA)**, которая становится важной при работе с данными, поступающими из неизвестных сред. Тест-тайм адаптация требуется, если используемый модели недостаточно данных для точного предсказания, когда среда или условия изменились. Например, модель, обученная на изображениях с теплом, может быть неточной при работе с холодными изображениями. **ETA: Energy-based Test-time Adaptation for Depth Completion** — это метод, разработанный для тестового временного адаптации моделей глубинного выполнения, которые обычно предсказывают неизбежно неточно в новых условиях. ## Метод Метод ETA основывается на **energy-based models (EBM)**, которые используются для классификации локальных регионов в глубинных предсказаниях как входящих в распределение или не входящих. Это позволяет гибко адаптировать модель к новым условиям без доступа к данным тестовой выборки до начала работы. **Ключевой идеей является оценка вероятности, что глубинное предсказание принадлежит распределению исходных данных**. В ETA используют **адверсарные пертурбации**, чтобы экспериментировать с данными и обучить модель, которая учитывает эту вероятность. Эта модель, называемая **energy model**, оценивает вероятность того, что глубинное предсказание является валидным. Затем, **параметры модели глубинного выполнения обновляются во время теста**, чтобы минимизировать энергию и, таким образом, выравнивать предсказания с распределением исходных данных. ## Результаты Результаты ETA показали существенные улучшения по сравнению с предыдущими методами. Он был протестирован на **6 разных датасетах** — 3 внутренних и 3 внешних. На внешних датасетах ETA показал увеличение точности на **6.94%**, а на внутренних — на **10.23%**. Наиболее заметными улучшениями являются те, которые произошли в условиях, отличающихся от условий обучения. Это указывает на эффективность метода ETA в решении проблем тестовой временной адаптации для моделей глубинного выполнения. ## Значимость ETA — это ключевый шаг в решении проблемы тестовой временной адаптации в глубинной сегментации. Этот подход может быть применен в различных ситуациях, когда модель должна работать в новых условиях, например, при работе с разными типами изображений, приложениях в реальном времени (например, водительские системы) или при работе с нестандартными средами. **Важное преимущество ETA заключается в том, что он не требует доступа к данным тестовой выборки до начала ра

Annotation:

We propose a method for test-time adaptation of pretrained depth completion models. Depth completion models, trained on some ``source'' data, often predict erroneous outputs when transferred to ``target'' data captured in novel environmental conditions due to a covariate shift. The crux of our method lies in quantifying the likelihood of depth predictions belonging to the source data distribution. The challenge is in the lack of access to out-of-distribution (target) data prior to deployment. He...

ID: 2508.05989v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 ECMF: Enhanced Cross-Modal Fusion for Multimodal Emotion Recognition in MER-SEMI Challenge

2025-08-12

Авторы:

Juewen Hu, Yexin Li, Jiulin Li, Shuo Chen, Pring Wong

## Контекст Эмоциональное распознавание (emotion recognition) является ключевым компонентом современных систем интерактивных технологий, таких как конференц-сервисы, диагностика психиатрических расстройств и улучшение опыта пользователя в системах беспилотных автомобилей. Однако существуют значительные проблемы, связанные с данными, в частности, недостаточностью и помехами в телеметрических данных, что существенно снижает точность распознавания эмоций. Это затрудняет развитие эффективных методов для решения задачи эмоционального распознавания в широких приложениях. Мы разработали рам framework, который адресует эти проблемы, обеспечивая более точное и устойчивое распознавание эмоций в мультимодальных системах. ## Метод Мы предлагаем **ECMF (Enhanced Cross-Modal Fusion)** — расширенный метод для взаимодействия между модальностями, который использует большие предварительно обученные модели для эффективного извлечения информативных признаков из визуальных, аудио и текстовых данных. Для визуальных данных, мы используем двух branch-проекцию: глобальные фичи кадров и локальные фичи лиц, которые обрабатываются индивидуально. Для текстовых данных, мы применяем контекст-улучшенный метод, который включает значительные эмоциональные признаки через лонг лэнгвэй модели. Для объединения этих модальностей, мы предлагаем стратегию с само-аттенцией для динамического взвешивания модальностей, а также резидентные связи для сохранения исходных представлений. ## Результаты Мы проводили эксперименты на датасете MER2025-SEMI, сравнивая нашу модель с официальным базовым решением. Наша модель показала значительное улучшение во весьма весомом F-меры на уровне 87.49%, что значительно превосходит официальный базовый результат 78.63%. Это демонстрирует эффективность нашего подхода в обработке мультимодальных эмоциональных сигналов и улучшении результатов распознавания. ## Значимость Наш подход может применяться в сферах, где эмоциональное распознавание имеет ключевое значение, включая медицину, образование и интерактивные системы. Он предлагает значительные преимущества, включая высокую точность распознавания, устойчивость к помехам в данных и универсальность, применимость к разным модальностям. Мы ожидаем, что наша работа способствует развитию технологий эмоционального распознавания в широких сферах применения. ## Выводы Мы представили ECMF, расширенный метод для эффективного взаимодействия между модальностями в задаче эмоционального распознавания. Наши результаты показали значительное улучшение над официальным базовым решением в MER2025-SEMI. Будущ

Annotation:

Emotion recognition plays a vital role in enhancing human-computer interaction. In this study, we tackle the MER-SEMI challenge of the MER2025 competition by proposing a novel multimodal emotion recognition framework. To address the issue of data scarcity, we leverage large-scale pre-trained models to extract informative features from visual, audio, and textual modalities. Specifically, for the visual modality, we design a dual-branch visual encoder that captures both global frame-level features...

ID: 2508.05991v1 cs.CV, cs.AI, cs.CY

arXiv PDF

📄 Improved Sub-Visible Particle Classification in Flow Imaging Microscopy via Generative AI-Based Image Synthesis

2025-08-12

Авторы:

Utku Ozbulak, Michaela Cohrs, Hristo L. Svilenov, Joris Vankerschaver, Wesley De Neve

## Контекст Sub-visible particle analysis в flow imaging microscopy широко применяется в промышленности, где необходимо идентифицировать различные типы частиц, включая силиконовое масло, белки и воздушные крупинки. Однако применение многоклассовых классификаторов сталкивается с существенными проблемами, в том числе нехваткой данных и неравномерным распределением классов. Такие проблемы особенно актуальны для редких типов частиц, таких как воздушные крупинки или силиконовое масло, которые встречаются реже, чем белки. Эти ограничения приводят к неэффективности классификации и снижению качества результатов. Для решения этой проблемы предлагается использовать генерирующие модели глубокого обучения, которые способны создавать высококачественные изображения частиц для более эффективного обучения классификационных моделей. ## Метод Разработанной работе лежит Diffusion Model (DDPM), которая генерирует высококачественные изображения частиц, эмулирующие реальные образцы. Метод основывается на предсказании изображений в гауссовом распределении, которое позволяет улучшить данные для обучения. Модель обучается на выборке данных, содержащей 500,000 изображений белковых частиц, и используется для генерирования изображений редких типов частиц, таких как воздушные крупинки или силиконовое масло. Для эффективного обучения классификационной модели включены изображения, генерированные диффузионной моделью, в качестве дополнения к основной выборке. ## Результаты Выполнены крупномасштабные эксперименты с 500,000 изображений белковых частиц, которые показали, что добавление генерируемых изображений диффузионной модели в обучающую выборку улучшает качество классификации. Это продемонстрировано на тестовой выборке, где использовались изображения с различных классов частиц. Обнаружено, что добавление генерируемых изображений к обучающей выборке не только улучшает точность классификации, но и повышает уверенность модели в предсказаниях. Кроме того, проведено сравнение с другими методами, чтобы подтвердить высокую эффективность предложенного подхода. ## Значимость Разработанный подход может быть применен в различных областях промышленности, где требуется точная классификация частиц. Это позволяет улучшить качество продукции, снижать риски связанные с недостаточной идентификацией частиц и повысить эффективность производства. Благодаря генерируемым изображениям можно получить более богатую выборку данных, что улучшает обучение глубоких сетей. Также этот подход может быть полезен для обучения моделей классификации в других аналогичных задачах с небольшими обучающими выборка

Annotation:

Sub-visible particle analysis using flow imaging microscopy combined with deep learning has proven effective in identifying particle types, enabling the distinction of harmless components such as silicone oil from protein particles. However, the scarcity of available data and severe imbalance between particle types within datasets remain substantial hurdles when applying multi-class classifiers to such problems, often forcing researchers to rely on less effective methods. The aforementioned issu...

ID: 2508.06021v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Fourier-VLM: Compressing Vision Tokens in the Frequency Domain for Large Vision-Language Models

2025-08-12

Авторы:

Huanyu Wang, Jushi Kai, Haoli Bai, Lu Hou, Bo Jiang, Ziwei He, Zhouhan Lin

#### Контекст Vision-Language Models (VLMs) являются ключевыми инструментами в области глубокого обучения, объединяющими возможности обработки текстов и изображений. Однако они сталкиваются с проблемой высокой вычислительной нагрузки, возникающей из-за большого количества визуальных токенов, необходимых для обработки изображений. Эти токены вводятся в модель через изображения, и их обработка требует значительных ресурсов. Это приводит к увеличению задержки инференса и ухудшению эффективности моделей. Таким образом, необходимо разработать методы, способные эффективно сжимать визуальные токены без потери качества или увеличения затрат. #### Метод Fourier-VLM предлагает уникальный подход к сжатию визуальных токенов, основанный на использовании преобразования Дискретного Косинуса (DCT) в двухмерном виде. Эта методика использует факт, что визуальные признаки, полученные с помощью современных оптических потоков, содержат большую часть своей энергии в низких частотных компонентах. Fourier-VLM применяет низкочастотный фильтр к визуальным признакам с помощью Фурье-преобразования, которое может быть эффективно реализовано с помощью Fast Fourier Transform (FFT), имеющего сложность $\mathcal{O}(n\log n)$. Этот подход является простым, но эффективным и не добавляет дополнительных параметров к модели. #### Результаты Эксперименты показали, что Fourier-VLM эффективно сжимает визуальные токены, сокращая их количество до 83.8% по сравнению с LLaVA-v1.5. Это приводит к существенному уменьшению количества FLOPs и увеличению скорости генерации текста на 31.2%. Эксперименты проводились на различных бенчмарках, и в результате Fourier-VLM демонстрирует высокую обобщаемость и высокую эффективность на различных моделях, таких как LLaVA и Qwen-VL. Эти результаты подтверждают практическую значимость данного подхода в решении проблем высокой нагрузки в области VLMs. #### Значимость Метод Fourier-VLM может применяться в различных приложениях, где требуется эффективно обрабатывать большие объемы визуальных данных. Он позволяет снизить затраты на вычисления и ускорить процессы инференса, что крайне важно для реализации моделей в реальном времени и для приложений, требующих высокой производительности. Благодаря своему простому и гибкому дизайну, Fourier-VLM может быть легко модифицирован и интегрирован в разные модели VLMs, что повышает его привлекательность для практического применения. #### Выводы Fourier-VLM доказывает, что использование преобразования Фурье для сжатия визуальных токенов является эффективным и практичным подходом к решению проблем высокой нагрузки в VLMs. Он положительно сказы

Annotation:

Vision-Language Models (VLMs) typically replace the predefined image placeholder token (<image>) in textual instructions with visual features from an image encoder, forming the input to a backbone Large Language Model (LLM). However, the large number of vision tokens significantly increases the context length, leading to high computational overhead and inference latency. While previous efforts mitigate this by selecting only important visual features or leveraging learnable queries to reduce tok...

ID: 2508.06038v2 cs.CV, cs.AI

arXiv PDF

📄 Can Large Models Fool the Eye? A New Turing Test for Biological Animation

2025-08-12

Авторы:

Zijian Chen, Lirong Deng, Zhengyu Chen, Kaiwei Zhang, Qi Jia, Yuan Tian, Yucheng Zhu, Guangtao Zhai

#### Контекст В последние годы широко развиваются большие языковые модели (LLMs), которые обладают возможностью обрабатывать и генерировать текст на высоком уровне. Однако оценка их эффективности и размаха возможностей часто остается неполной или недостаточно очевидной. Особенно сложно оценить их умение генерировать биологически правдоподобные анимации, которые требуют не только теоретической знания, но и чувственного восприятия движения. Чтобы заполнить это промежуток, требуется более ясный и интуитивный подход к оценке, который позволит сравнить модели в задачах анимации с высоким уровнем детализации. #### Метод Мы предлагаем BioMotion Arena — новую фреймворк для оценки биологической анимации, основная идея которого заключается в использовании визуального восприятия движения. Метод основывается на обработке point-light source imaging, позволяющей усиливать неточности отдельных моделей. Мы проводим парные сравнения 53 LLMs и MLLMs на 90 видах биологических движений. Данные собираются в виде более чем 45 тысяч голосов от пользователей и экспертов. Мы используем этот подход для показа очевидных различий в качестве генерируемых анимаций. #### Результаты Наши эксперименты показали, что более 90% из 53 тестируемых моделей, включая самые современные, такие как InternVL3 и Claude-4, не могут генерировать базовые человеческие модели в виде точек и неустойчивые движения. Наши результаты показали, что большинство моделей не способны генерировать биологически правдоподобную анимацию, даже если у них есть доступ к большим объемам данных и высокому вычислительному мощности. #### Значимость BioMotion Arena демонстрирует свою ценность в качестве инструмента для детального сравнения моделей в области биологической анимации. Он также позволяет предоставлять более очевидный и интуитивный фидбек для пользователей, что делает его полезным для разработчиков и аналитиков. Этот фреймворк может использоваться в будущем для тестирования новых моделей, а также для выявления ограничений текущих моделей. #### Выводы BioMotion Arena открывает новые возможности для проверки качества биологической анимации с помощью графического отображения движения. Мы показали, что даже самые современные модели часто не могут достичь биологического реализма, что делает этот подход ключевым для будущих исследований в области генерируемых движений. Наши результаты открывают новые возможности для повышения качества анимации в различных приложениях, включая медицину, анимацию и игры.

Annotation:

Evaluating the abilities of large models and manifesting their gaps are challenging. Current benchmarks adopt either ground-truth-based score-form evaluation on static datasets or indistinct textual chatbot-style human preferences collection, which may not provide users with immediate, intuitive, and perceptible feedback on performance differences. In this paper, we introduce BioMotion Arena, a novel framework for evaluating large language models (LLMs) and multimodal large language models (MLLM...

ID: 2508.06072v1 cs.CV, cs.AI

arXiv PDF

1
2
216
217
218
219
220
227
228

Показано 2171 - 2180 из 2274 записей