📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Yu-Hsi Chen, Wei-Hsin Chen, Chien-Yao Wang, Hong-Yuan Mark Liao, James C. Liao, Chien-Chang Chen

**Резюме** Анализ поведения мышей в условиях хронической боли является ключевым элементом преclinicalных исследований, но существующие методы часто ограничены ручными меткиваниями поведения. Это приводит к затруднениям в подробном охвате нежелательных и непрерывных изменений поведения, связанных с болью. Данная работа предлагает фреймворк, основанный на deep learning, для автоматического извлечения фич поведения, связанных с хронической болью, без использования ручных меток. Метод использует universal action space projector для эффективного извлечения детальных движух мышей и сохранения богатых данных из оригинальных видео. Разработанная модель продемонстрировала высокую точность в классификации поведения мышей, превосходя общий вид (48.41% vs. 21.33%) и лучший метод B-SOiD (48.41% vs. 30.52%) при оценке 15-классового классификатора. Особенно высокая точность (73.1%) была достигнута при классификации поведения на три класса: хроническая боль нервного характера, инфильтраторная боль и отсутствие боли. Более того, модель определила различия в эффективности лекарственных препаратов в нулевом тестировании на Gabapentin, с высокой точностью и согласием с предыдущими исследованиями. Этот подход может стать значительным шагом в науке о боли и развитии новых лекарственных средств.
Annotation:
Assessing chronic pain behavior in mice is critical for preclinical studies. However, existing methods mostly rely on manual labeling of behavioral features, and humans lack a clear understanding of which behaviors best represent chronic pain. For this reason, existing methods struggle to accurately capture the insidious and persistent behavioral changes in chronic pain. This study proposes a framework to automatically discover features related to chronic pain without relying on human-defined ac...
ID: 2508.05138v1 cs.CV
Авторы:

Qi Xie, Jiahong Fu, Zongben Xu, Deyu Meng

**Резюме** В статье предлагается метод Rotation Equivariant Arbitrary-Scale Image Super-Resolution (ASISR) для решения задачи интерполяции с разными масштабами с учетом ориентации геометрических элементов. Одной из основных проблем в ASISR является ухудшение качества восстановления при наличии репетитивных текстур, краев и форм в низкорезольвентных изображениях, что приводит к артефактам в результатах. Ротационная эквивалентность позволяет сохранить исходные геометрические характеристики при масштабировании. В предлагаемом подходе интегрируется эквивалентность к ротации в модели, что позволяет восстанавливать изображения с гарантированной ротационной эквивалентностью. Это достигается путем переноса модуля INR и энкодера в структуру, обеспечивающую ротационную эквивалентность на всех уровнях. Теоретическая оценка эквивалентности подтверждает естественность этого принципа. Эксперименты показали, что метод вышел впереди существующих работ по качеству восстановления и по способности поддерживать ориентации геометрических форм. Алгоритм может легко интегрироваться с другими ASISR-решениями для повышения их эффективности.
Annotation:
The arbitrary-scale image super-resolution (ASISR), a recent popular topic in computer vision, aims to achieve arbitrary-scale high-resolution recoveries from a low-resolution input image. This task is realized by representing the image as a continuous implicit function through two fundamental modules, a deep-network-based encoder and an implicit neural representation (INR) module. Despite achieving notable progress, a crucial challenge of such a highly ill-posed setting is that many common geom...
ID: 2508.05160v1 cs.CV
Авторы:

Xuan Wang, Kai Ruan, Liyang Qian, Zhizhi Guo, Chang Su, Gaoang Wang

Межвидовая моделирование движения (X-MoGen) — первый метод, объединяющий моделирование движения для людей и животных. Он адресует проблему различий в скелетных структурах, которые скажутся на реализме полученных последовательностей движения. Решением стало два этапа архитектуры: в первой фазе используется условный граф ВАЭ для установления вариаций положения в T-pose, а также автокодировщик, кодирующий движение в общий латентный пространственный вариант, замкнутый на морфологическом потере. Во второй фазе, модель выполняет отклонение моделирования масок для генерации эмбеддингов движения на основе текстовых описаний. Чтобы поддерживать морфологическую согласованность, введен модуль многовидовой совместимости. Богатые эксперименты на UniMo4D — расширенном датасете, включающим 115 видов и 119 тысяч последовательностей движения — показали, что X-MoGen превосходит состояние технологий на межвидовых текстово-двигательных задачах, при этом обеспечивая высокий реализм и универсальность.
Annotation:
Text-driven motion generation has attracted increasing attention due to its broad applications in virtual reality, animation, and robotics. While existing methods typically model human and animal motion separately, a joint cross-species approach offers key advantages, such as a unified representation and improved generalization. However, morphological differences across species remain a key challenge, often compromising motion plausibility. To address this, we propose \textbf{X-MoGen}, the first...
ID: 2508.05162v1 cs.CV
Авторы:

Qi Guo, Xiaojun Jia, Shanmin Pang, Simeng Qin, Lin Wang, Ju Jia, Yang Liu, Qing Guo

**Резюме** В последнее время multimodal large language models (MLLMs) нашли применение в системах автономного управления транспортом (AD), причем их визуально-языковые возможности становятся ключевыми для работы в таких средах. Однако эти модели оказались уязвимы к атакам, особенно к атакам с использованием адверсарных патчей. Традиционные методы атак, ориентированные на объектно-ориентированные модели, неэффективны при переходе к MLLM-based AD, из-за сложности их архитектур и возможности рационального разума. Мы предлагаем **PhysPatch**, новую фреймворк-реализацию атак с использованием адверсарных патчей, которая является физически реализуемой и переносимой. PhysPatch оптимизирует расположение, форму и содержание патча, что позволяет увеличить его эффективность и применимость в реальном мире. Метод включает в себя стратегию инициализации масок на основе семантики, локальный выравнивающий потенциал на основе SVD, а также метод рефинирвоания маски на основе потенциальных полей. Наши эксперименты показали, что PhysPatch значительно превосходит предыдущие подходы в том, что он успешно приводит модели MLLM к целевым результатам во время планирования и осведомленности. Более того, PhysPatch гарантирует, что патчи будут размещены в физически реализуемых областях сцен AD, что делает это решение применимо и эффективно в реальных условиях.
Annotation:
Multimodal Large Language Models (MLLMs) are becoming integral to autonomous driving (AD) systems due to their strong vision-language reasoning capabilities. However, MLLMs are vulnerable to adversarial attacks, particularly adversarial patch attacks, which can pose serious threats in real-world scenarios. Existing patch-based attack methods are primarily designed for object detection models and perform poorly when transferred to MLLM-based systems due to the latter's complex architectures and r...
ID: 2508.05167v1 cs.CV
Авторы:

Caner Özer, Patryk Rygiel, Bram de Wilde, İlkay Öksüz, Jelmer M. Wolterink

Артефакты в медицинских изображениях значительно снижают точность диагностики и сокращают качество анализа данных. Обычные методы обнаружения артефактов часто приводят к убытку информации и требуют большой памяти, что ограничивает модели классификации в своей масштабируемости. В этой работе предлагается использовать алгоритмы implicit neural representations (INRs) для оценки качества медицинских изображений. INRs представляют изображения в виде непрерывных данных, что позволяет легко адаптироваться к разным разрешениям и объемам, уменьшая необходимую память. Мы разработали нейронные сети, основанные на весах и графах, а также трансформеры с относительной аттенцией, чтобы использовать INRs для оценки качества изображений. На датасете ACDC, на котором виртуально генерируются артефакты, наш метод продемонстрировал высокую эффективность при оценке качества, при этом требуя меньше параметров.
Annotation:
Artifacts pose a significant challenge in medical imaging, impacting diagnostic accuracy and downstream analysis. While image-based approaches for detecting artifacts can be effective, they often rely on preprocessing methods that can lead to information loss and high-memory-demand medical images, thereby limiting the scalability of classification models. In this work, we propose the use of implicit neural representations (INRs) for image quality assessment. INRs provide a compact and continuous...
ID: 2508.05168v1 eess.IV, cs.CV
Авторы:

Zewei Wu, Longhao Wang, Cui Wang, César Teixeira, Wei Ke, Zhang Xiong

**Резюме** Текущие методы визуального трекинга специфических целей, таких как пешеходы и транспортные средства, сталкиваются с трудностями при работе с нестандартными ситуациями, включая слабые консервации по движению и визуальному виду, длительные окклюзии и низкоконфидентные детекции. Данная работа предлагает новый подход, Multi-Tracklet Tracking (MTT), который интегрирует гибкую генерацию tracklet-ов в многошаговую систему ассоциации. Метод отличается тем, что адаптивно кластеризует результаты детекции на основе корреляции в пространственно-временной области, формируя надежные tracklet-ы. Далее, он использует множество признаков, включая местоположение и внешний вид в течение времени, для построения наилучшего разбиения tracklet-ов, с целью снижения ошибочной пропаграции на протяжении долгосрочного ассоциирования. На экспериментальных данных по бенчмарку для общего multitarget tracking показано, что MTT демонстрирует высокую эффективность и сопротивляемость к ошибкам.
Annotation:
Tracking specific targets, such as pedestrians and vehicles, has been the focus of recent vision-based multitarget tracking studies. However, in some real-world scenarios, unseen categories often challenge existing methods due to low-confidence detections, weak motion and appearance constraints, and long-term occlusions. To address these issues, this article proposes a tracklet-enhanced tracker called Multi-Tracklet Tracking (MTT) that integrates flexible tracklet generation into a multi-trackle...
ID: 2508.05172v1 cs.CV
Авторы:

Zhiqing Xiao, Haobo Wang, Xu Lu, Wentao Ye, Gang Chen, Junbo Zhao

Доменный адаптационный механизм (Domain Adaptation, DA) предназначен для передачи знаний из меток источника к немаркированным или частично маркированным целевым объектам при существенных доменных сдвигах. Однако большинство текущих подходов привязаны к улучшению междоменной трансферности, грозящей ухудшением дискриминативности внутри домена. Для решения этой проблемы предлагается SPA++, новая обобщенная фреймворк классификации графов по спектру, SPA++. Он решает две основные задачи: (1) — строит механизм общего графового выравнивания, основанный на графовых примитивах и инновационной спектральной регуляризации, чтобы выравнять в спектральных пространствах входные графы; (2) — улучшает дискриминативность в целевой области с помощью тонкой механизма пропагации соседних узлов. Дополнительно, новый подход интегрирует согласование с увеличением данных и консистентностью, обеспечивая устойчивость в сложных сценариях, включая трудные случаи распределения. Теоретические анализы и эксперименты показывают, что SPA++ значительно превосходит текущие лидеры в стабильности и наилучшей адаптации в различных ситуациях.
Annotation:
Domain Adaptation (DA) aims to transfer knowledge from a labeled source domain to an unlabeled or sparsely labeled target domain under domain shifts. Most prior works focus on capturing the inter-domain transferability but largely overlook rich intra-domain structures, which empirically results in even worse discriminability. To tackle this tradeoff, we propose a generalized graph SPectral Alignment framework, SPA++. Its core is briefly condensed as follows: (1)-by casting the DA problem to grap...
ID: 2508.05182v1 cs.CV, cs.LG
Авторы:

Yongjie Bai, Zhouxia Wang, Yang Liu, Weixing Chen, Ziliang Chen, Mingtong Dai, Yongsen Zheng, Lingbo Liu, Guanbin Li, Liang Lin

Научная статья «Learning to See and Act: Task-Aware View Planning for Robotic Manipulation» рассматривает проблему ограниченности современных vision-language-action (VLA) моделей для многозадачных задач роботской манипуляции, связанную с работой с единым статическим визуальным представлением. Такие модели страдают от недостатка трехмерного пересчета и влияния одной задачи на другую, что приводит к снижению robustness и generalization. В ответ на эту проблему авторы предлагают Task-Aware View Planning (TAVP) — новую фреймворк, который объединяет active view planning с task-specific representation learning. TAVP использует эффективный алгоритм эксплорации, основанный на новом методе pseudo-environment, для активной активации наиболее информативных view. Также предложен Mixture-of-Experts (MoE) visual encoder, который разделяет признаки на различные задачи, улучшая как файлность представлений, так и их generalization. Результаты экспериментов на RLBench показывают, что TAVP превосходит текущие state-of-the-art fixed-view модели в action prediction.
Annotation:
Recent vision-language-action (VLA) models for multi-task robotic manipulation commonly rely on static viewpoints and shared visual encoders, which limit 3D perception and cause task interference, hindering robustness and generalization. In this work, we propose Task-Aware View Planning (TAVP), a framework designed to overcome these challenges by integrating active view planning with task-specific representation learning. TAVP employs an efficient exploration policy, accelerated by a novel pseud...
ID: 2508.05186v1 cs.RO, cs.CV
Авторы:

Dongchen Si, Di Wang, Erzhong Gao, Xiaolei Qin, Liu Zhao, Jing Zhang, Minqiang Xu, Jianbo Zhan, Jianshe Wang, Lin Liu, Bo Du, Liangpei Zhang

### Резюме В зондировании Земли спектральные данные играют ключевую роль, однако их полное использование в моделях визуально-языковых инструкций остается недостаточно раскрытым, что приводит к ограниченной точности распознавания объектов. Для решения этой проблемы предлагается SPEX, первая в своем роде визуально-языковая модель, разработанная специально для выделения покрытия земли на основе спектральных данных. Модель использует современные визуально-языковые методы и многомерные признаки, чтобы улучшить точность распознавания объектов покрытия земли на многоканальных спутниковых снимках. Также SPEX включает в себя модель текстовых объяснений, чтобы улучшить понимание результатов модели. На тестовых данных спутниковых снимков, покрывающих разные условия, SPEX показала высокую точность и превосходительные результаты по сравнению с другими моделями. Это является первым примером, где визуально-языковая модель полностью использует спектральные признаки для высокоточного распознавания покрытия земли.
Annotation:
Spectral information has long been recognized as a critical cue in remote sensing observations. Although numerous vision-language models have been developed for pixel-level interpretation, spectral information remains underutilized, resulting in suboptimal performance, particularly in multispectral scenarios. To address this limitation, we construct a vision-language instruction-following dataset named SPIE, which encodes spectral priors of land-cover objects into textual attributes recognizable...
ID: 2508.05202v1 cs.CV
Авторы:

Bingyu Yang, Qingyao Tian, Yimeng Geng, Huai Liao, Xinyan Huang, Jiebo Luo, Hongbin Liu

Одной из ключевых проблем в области робото-помогаемой хирургии является поиск соответствий в высокоубитых оперативных изображениях. Это необходимо для решения задач типа трехмерного реконструктирования, навигации и понимания сцены операционного поля. Однако эта задача сложна из-за трудных условий визуализации (слабые текстуры, большие перемены угла зрения) и недостатка аннотированных данных. В статье предлагается EndoMatcher — метод, основанный на Vision Transformer, который обучается на большой многодоменной коллекции Endo-Mix6 (1.2M пар изображений с параллельными трансформациями). Для улучшения стабильности обучения и регулирования размеров доменов вводится прогрессивная стратегия обучения. EndoMatcher показал себя эффективно, увеличивая количество совпадающих точек в 2.4 раза по сравнению с текущими лучшими методами. Это демонстрирует возможность обеспечить точные и обобщаемые соответствия в сложных условиях оперативного зрения.
Annotation:
Generalizable dense feature matching in endoscopic images is crucial for robot-assisted tasks, including 3D reconstruction, navigation, and surgical scene understanding. Yet, it remains a challenge due to difficult visual conditions (e.g., weak textures, large viewpoint variations) and a scarcity of annotated data. To address these challenges, we propose EndoMatcher, a generalizable endoscopic image matcher via large-scale, multi-domain data pre-training. To address difficult visual conditions, ...
ID: 2508.05205v1 cs.CV
Показано 11461 - 11470 из 11614 записей