📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Zewei Zhou, Seth Z. Zhao, Tianhui Cai, Zhiyu Huang, Bolei Zhou, Jiaqi Ma

Многоагентные системы, использующие многозадачное обучение, обладают большим потенциалом для улучшения производительности в сложных задачах промежуточного представления и прогнозирования. Однако эффективное обучение таких моделей требует значительных усилий в ручном дизайне и настройке. В статье представлен TurboTrain — новый фреймворк для улучшения эффективности обучения в многоагентных системах. Он включает два ключевых компонента: маскированное восстановительное обучение для предварительной обработки многоагентных спектро-временных данных и стратегию балансировки многозадачного обучения, снижающую конфликты градиентов. Этот подход упрощает и ускоряет процесс обучения, экономя ресурсы и повышая качество результатов. На реальных данных из набора V2XPnP-Seq TurboTrain показал существенное улучшение производительности по сравнению с состоянием техники, что демонстрирует его эффективность в задачах многоагентного представления и прогнозирования.
Annotation:
End-to-end training of multi-agent systems offers significant advantages in improving multi-task performance. However, training such models remains challenging and requires extensive manual design and monitoring. In this work, we introduce TurboTrain, a novel and efficient training framework for multi-agent perception and prediction. TurboTrain comprises two key components: a multi-agent spatiotemporal pretraining scheme based on masked reconstruction learning and a balanced multi-task learning ...
ID: 2508.04682v1 cs.CV
Авторы:

Ye Pan, Ruisi Zhang, Jingying Wang, Nengfu Chen, Yilin Qiu, Yu Ding, Kenny Mitchell

**Резюме** Авторы предлагают MienCap — систему для реализации реалистичных 3D-анимаций лиц с учетом динамики эмоционального состояния. Основная проблема заключается в трудностях создания перспективных и анимированных 3D-моделей, которые сочетали бы техники классической анимации с новыми методами машинного обучения, обеспечивая актуальность, геометрическую консистентность и перспективность эмоциональных выражений. Решением становится совмещение традиционных техник вместе с нейросетевыми моделями для генерации реалистичных выражений лиц в реальном времени. Авторы предлагают два подхода: нереальное время с использованием 3D-технологий и реальное время с адаптацией технологии blendshape. Оба подхода показали высокую эффективность по сравнению с коммерческим продуктом Faceware, повысив значительно оценки на уровне распознавания выражений, их интенсивности и привлекательности. Это предоставляет аниматорам новые возможности для быстрого и точного создания эмоциональных выражений.
Annotation:
Our purpose is to improve performance-based animation which can drive believable 3D stylized characters that are truly perceptual. By combining traditional blendshape animation techniques with multiple machine learning models, we present both non-real time and real time solutions which drive character expressions in a geometrically consistent and perceptually valid way. For the non-real time system, we propose a 3D emotion transfer network makes use of a 2D human image to generate a stylized 3D ...
ID: 2508.04687v1 cs.GR, cs.CV, I.3.2; I.4.10
Авторы:

Ziyang Leng, Jiawei Yang, Zhicheng Ren, Bolei Zhou

Мы предлагаем BEVCon — простой, но эффективный подход к улучшению перцепции Bird’s Eye View (BEV) в автономных системах движения. BEV-перцепция, оказавшаяся ключевым компонентом для таких задач, как 3D-обнаружение объектов, сегментация и прогноз траекторий, обычно касается улучшения BEV-кодировщиков и задач-специфичных моделей. Наш подход, напротив, фокусируется на повышении возможностей обучения представлений в этих моделях. Мы предлагаем два модуля для обучения с помощью контрастирования: модуль для очистки экземплярных фич в BEV-пространстве и модуль, улучшающий обработку изображений на входе с помощью пространственного контрастирования. Эти модули, комбинированные с оптимизацией потерь обнаружения, ведут к повышению качества представлений в модели BEV и её специфической архитектуре. В экспериментах на датасете nuScenes BEVCon достигает до 2.4% увеличения метрики mAP, показывая значительную эффективность. Наши результаты открывают новую перспективу в развитии BEV-перцепции, показывая значимость представления в машинном обучении.
Annotation:
We present BEVCon, a simple yet effective contrastive learning framework designed to improve Bird's Eye View (BEV) perception in autonomous driving. BEV perception offers a top-down-view representation of the surrounding environment, making it crucial for 3D object detection, segmentation, and trajectory prediction tasks. While prior work has primarily focused on enhancing BEV encoders and task-specific heads, we address the underexplored potential of representation learning in BEV models. BEVCo...
ID: 2508.04702v1 cs.CV
Авторы:

MD Shaikh Rahman, Feiroz Humayara, Syed Maudud E Rabbi, Muhammad Mahbubur Rashid

**Резюме** В статье предлагается расширенная разработка системы контент-базированного поиска маммографических изображений, ориентированной на точный классификационный матчинг по системе BIRADS, включающей пять классов. Это решение призвано устранить существующие ограничения в текущих исследованиях, такие как недостаточные размеры выборок, неподходящие схемы разбиения данных и недостаточное статистическое взаимосвязи, которые мешают клиническому применению. Разработанная фреймворк включает стратифицированное разбиение данных (50%/20%/30% для обучения, валидации и тестирования), регрессионные тесты с помощью штрих-кода, и 602 запросов для поиска. Использованы такие CNN-архитектуры, как DenseNet121, ResNet50 и VGG16, с развитыми тренировочными стратегиями, включая пунктуальное увеличение уровня точности, метрическое обучение и свертки в супер-конфигурации. Наиболее выдающимся результатом явился супер-конфигурация, которая достигла 36.33% precision@10 (95% CI: [34.78%, 37.88%]), что превосходит реалистические ожидания для 5-классового поиска BIRADS. Доказано, что этот подход представляет более эффективные архитектуры для клинического применения в диагностике и качественном контроле.
Annotation:
Content-based mammographic image retrieval systems require exact BIRADS categorical matching across five distinct classes, presenting significantly greater complexity than binary classification tasks commonly addressed in literature. Current medical image retrieval studies suffer from methodological limitations including inadequate sample sizes, improper data splitting, and insufficient statistical validation that hinder clinical translation. We developed a comprehensive evaluation framework sys...
ID: 2508.04790v1 eess.IV, cs.CV, cs.LG
Авторы:

Mohab Kishawy, Ali Abdellatif Hussein, Jun Chen

Избыточное разрешение изображений (Ultra-High-Definition, UHD) стало ключевым элементом современной информационной среды, но его обработка сталкивается с значительными вызовами. Традиционные методы, такие как взвешивание или преобразование в частотный домен, сталкиваются с проблемами необратимой потери информации и неэффективностью в решении местных артефактов. Для преодоления этих ограничений, представлен алгоритм RetinexDual — основанный на теории Retinex с двумя взаимодополняющими подсетями. Scale-Attentive maMBA (SAMBA) адресует проблему рефлексии, используя механизм сглаживания от суперпикселя до локальных деталей, чтобы уменьшить артефакты и восстановить тонкости. Функция Frequency Illumination Adaptor (FIA) корректирует цвет и иллюминацию, оперируя в частотном домене и используя глобальный контекст. Тесты RetinexDual на задачах дерейнинга, деблюринга, дегазинга и улучшения низкоуровневых изображений показали, что он превосходит современные методы как с точки зрения качества, так и с точки зрения эффективности. Это демонстрирует значительные преимущества нового подхода в области обработки UHD-изображений.
Annotation:
Advancements in image sensing have elevated the importance of Ultra-High-Definition Image Restoration (UHD IR). Traditional methods, such as extreme downsampling or transformation from the spatial to the frequency domain, encounter significant drawbacks: downsampling induces irreversible information loss in UHD images, while our frequency analysis reveals that pure frequency-domain approaches are ineffective for spatially confined image artifacts, primarily due to the loss of degradation localit...
ID: 2508.04797v1 cs.CV
Авторы:

Trong-Thuan Nguyen, Viet-Tham Huynh, Thao Thi Phuong Dao, Ha Nguyen Thi, Tien To Vu Thuy, Uyen Hanh Tran, Tam V. Nguyen, Thanh Dinh Le, Minh-Triet Tran

**Резюме** В статье представлено ENTRep, вызов ACM Multimedia Grand Challenge 2025, посвященный анализу изображений эндоскопических исследований в области ОРЛ (ухо, нос, горло). Объектом интереса являются задачи классификации анатомических регионов и их нормального или аномального состояния, а также обеспечение возможности интерактивного поиска похожих изображений с помощью двунаправленных задач — изображение-к-изображению и текст-к-изображению — в двух языках (английском и вьетнамском). В качестве основы для вызова использован уникальный ENTRep-датасет, который включает в себя экспертно аннотированные изображения с детальными клиническими описаниями на двух языках. Решение, предложенное авторами, заключается в создании платформы для решения ключевых проблем в области ОРЛ, включая недостаточную поддержку автоматизированных систем анализа изображений и нехватку данных для отбора похожих случаев. Основные выводы: ENTRep эффективно решает проблему анатомической классификации и поиска похожих случаев, предоставляя широкие возможности для улучшения клинических занятий в области ОРЛ.
Annotation:
Automated analysis of endoscopic imagery is a critical yet underdeveloped component of ENT (ear, nose, and throat) care, hindered by variability in devices and operators, subtle and localized findings, and fine-grained distinctions such as laterality and vocal-fold state. In addition to classification, clinicians require reliable retrieval of similar cases, both visually and through concise textual descriptions. These capabilities are rarely supported by existing public benchmarks. To this end, ...
ID: 2508.04801v1 cs.CV
Авторы:

Mehrdad Moradi, Marco Grasso, Bianca Maria Colosimo, Kamran Paynabar

Аномалийдиктовка и сегментация — важные задачи в области анализа изображений, требующие высокой точности и быстроты. Несмотря на успех генеративных моделей, в том числе diffusion models, традиционные подходы, основанные на восстановлении изображений, сталкиваются с тремя основными проблемами: высокой вычислительной сложностью, возможностью ошибочной интерпретации нормальных шаблонов и необходимостью дополнительной информации о нарушениях. Мы предлагаем Reconstruction-Free Anomaly Detection with Attention-Based Diffusion Models in Real-Time (RADAR) — метод, который устраняет эти ограничения. RADAR не восстанавливает изображение, а напрямую производит anomaly maps, повышая тем самым точность и эффективность. Мы проверили RADAR на двух реальных датасетах — MVTec-AD и 3D-printed material. Наш подход показал лучшие результаты по всем ключевым метрикам в сравнении с современными diffusion-based и статистическими моделями. Этот результат подтверждает высокую эффективность RADAR в реальном времени.
Annotation:
Generative models have demonstrated significant success in anomaly detection and segmentation over the past decade. Recently, diffusion models have emerged as a powerful alternative, outperforming previous approaches such as GANs and VAEs. In typical diffusion-based anomaly detection, a model is trained on normal data, and during inference, anomalous images are perturbed to a predefined intermediate step in the forward diffusion process. The corresponding normal image is then reconstructed throu...
ID: 2508.04818v1 cs.CV, eess.IV, stat.ML, 62H35, 68T07, 62M40, 68T45, I.2.6; I.2.10; I.4.6; I.4.8; I.5.1; I.5.4
Авторы:

Chirag Seth, Divya Naiken, Keyan Lin

Изучая сложности активного отслеживания движений глаз при помощи дешевых датчиков, авторы работы предложили моделировать движения глаз с использованием событий, поступающих с эвент-камер. Эта задача значительно усложняется из-за высокой скорости движения глаз — до 300°/с — требующихся высокочастотных датчиков. Основным результатом работы является модель CNN\_LSTM, предсказывающая положение центра глаза (x, y) с достаточной точностью — примерно 81%, применяясь к данным от эвент-камеры. Эта модель имеет широкие применения в жизненных сферах, включая VR и AR, где стоит задача улучшить комфорт и пользовательский опыт. Для повышения понимания работы модели, авторы предлагают в дальнейшем внедрять LRP (Layer-wise Relevance Propagation) для улучшения интерпретируемости решений.
Annotation:
This research project addresses the challenge of accurately tracking eye movements during specific events by leveraging previous research. Given the rapid movements of human eyes, which can reach speeds of 300{\deg}/s, precise eye tracking typically requires expensive and high-speed cameras. Our primary objective is to locate the eye center position (x, y) using inputs from an event camera. Eye movement analysis has extensive applications in consumer electronics, especially in VR and AR product ...
ID: 2508.04827v1 cs.CV, 68T05, 68T07, I.2.10; I.5.1; I.4.8; J.4
Авторы:

Md Zahidul Hasan, A. Ben Hamza, Nizar Bouguila

3D-предсказание траекторий движения человека является важной задачей, но существующие модели часто сталкиваются с проблемами в сочетании высокой точности с эффективностью. Мы предлагаем LuKAN (LuKogorov-Arnold Network) — модель, основанную на Kolmogorov-Arnold Networks (KAN) с полиномами Лукаса в качестве активационных функций. Модель применяет дискретное преобразование Фурье для кодирования временных зависимостей, а специальный слой проекции позволяет учесть зависимости между суставами, обеспечивая консистентность структуры тела. На основе Temporal Dependency Learner, использующего KAN с полиномами Лукаса, LuKAN эффективно приближает функции с высоким качеством и малой сложностью. Наконец, инверсное преобразование Фурье восстанавливает последовательность движения в временном домене. Результаты экспериментов на трех бенчмарк-датасетах показали, что LuKAN эффективно преодолевает ограничения существующих моделей, обеспечивая высокую точность и низкую сложность.
Annotation:
The goal of 3D human motion prediction is to forecast future 3D poses of the human body based on historical motion data. Existing methods often face limitations in achieving a balance between prediction accuracy and computational efficiency. In this paper, we present LuKAN, an effective model based on Kolmogorov-Arnold Networks (KANs) with Lucas polynomial activations. Our model first applies the discrete wavelet transform to encode temporal information in the input motion sequence. Then, a spat...
ID: 2508.04847v1 cs.CV
Авторы:

Chenhui Qiang, Zhaoyang Wei, Xumeng Han Zipeng Wang, Siyao Li, Xiangyuan Lan, Jianbin Jiao, Zhenjun Han

Развитие моделей сверточных языковых моделей (MLLMs) привело к потребности оценивать их визуальные способности. Настоящий доклад представляет VER-Bench — новую систему, оценивающую модели на точности визуального анализа и сложном логическом рассуждении. VER-Bench фокусируется на извлечении тонких визуальных подробностей, которые занимают менее 0.25% изображения, но несут критическую информацию для корректного вывода. Он сочетает эти подробности с мировым знанием для сложных логических задач, включая геоспациальное, временное, ситуационное, интентное, состояние системы и символическое рассуждение. Составленные 374 вопроса строго обоснованы и иллюстрируют ограничения нынешних моделей в извлечении и интеграции тонких визуальных сведений, подчеркивая необходимость их улучшения. Этот подход позволяет выявить слабые места моделей в понимании тонких визуальных сведений и стимулирует развитие их возможностей в человекоподобном анализе.
Annotation:
With the rapid development of MLLMs, evaluating their visual capabilities has become increasingly crucial. Current benchmarks primarily fall into two main types: basic perception benchmarks, which focus on local details but lack deep reasoning (e.g., "what is in the image?"), and mainstream reasoning benchmarks, which concentrate on prominent image elements but may fail to assess subtle clues requiring intricate analysis. However, profound visual understanding and complex reasoning depend more o...
ID: 2508.04852v1 cs.CV
Показано 11421 - 11430 из 11614 записей