📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Zane Xu, Jason Sun

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современные мультимодальные модели, такие как CLIP, продемонстрировали выдающиеся способности к zero-shot классификации изображений, используя естественные языковые описания в качестве семантических якорей. Эти модели обучаются на масштабных датасетах сопряженных текстовых и визуальных данных, формируя общее встраиваемое пространство, где текстовые и визуальные представления близки по семантике. Однако, несмотря на впечатляющие результаты в "чистых" условиях, такие модели остаются крайне уязвимы к адверсариальным атакам - незаметным для человеческого глаза возмущениям во входных данных, способным полностью изменить предсказания модели. Ключевая проблема заключается в фундаментальном конфликте между повышением адверсариальной робастности и сохранением zero-shot обобщающей способности. Традиционные методы защиты, эффективные для чисто визуальных моделей, оказываются неприменимыми в контексте VLMs из-за уникальной двухмодальной природы архитектуры и необходимости сохранения кросс-модального выравнивания. Более того, большинство существующих защит предполагают наличие обучающего набора из конкретной задачи, что противоречит zero-shot парадигме. Исследовательское сообщество столкнулось с необходимостью разработки специализированных защитных механизмов, которые бы учитывали особенности мультимодального обучения и при этом не требовали переобучения модели на конкретной задаче. Это привело к формированию двух основных направлений: методов, модифицирующих параметры модели (Adversarial Fine-Tuning), и методов, работающих без изменения предобученных весов (Training-Free/Test-Time Defenses). Каждый подход имеет свои фундаментальные ограничения: первый рискует разрушить zero-shot обобщение, второй - ограничен в выразительной мощности защитных преобразований. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы обзора систематизируют восемь ключевых работ в области zero-shot адверсариальной робастности VLMs, классифицируя их по двум основным парадигмам защиты. Первая парадигма - Adversarial Fine-Tuning (AFT) - предполагает градиентное обновление параметров модели с целью повышения робастности, при этом критически важным является сохранение zero-shot способностей. Вторая парадигма - Training-Free/Test-Time Defenses - стремится обеспечить защиту без изменения предобученных весов модели. Эволюция методов прослеживается от простых эвристик до сложных многоуровневых защит. Первоначально предлагались alignment-preserving методы, такие как TeCoA (Test-time Consistency Alignment), которые используют консистентность между исходными и возмущенными представлениями в качестве сигнала для обучения. Затем развились методы re-engineering встраиваемого пространства: LAAT (Learnable Adversarial Augmentation for Text) и TIMA (Test-time Image Modulation for Adversarial robustness) вносят адаптивные изменения в текстовые и визуальные встраивания соответственно. Следующим этапом стало развитие input-level эвристик: AOM (Adversarial Output Matching) использует согласование выходов между оригинальными и преобразованными изображениями, а TTC (Test-time Transformation Consistency) применяет набор трансформаций для устранения адверсариального шума. Кульминацией стало развитие методов latent-space purification, представленных CLIPure, который использует диффузионные модели для очистки встраиваемых представлений в скрытом пространстве признаков. Каждый метод вносит уникальный вклад в решение trade-off между робастностью и обобщением: от легковесных эвристик с минимальными вычислительными затратами до сложных многоступенчатых систем с диффузионной очисткой. Ключевым достижением является разработка методов, которые либо минимально вмешиваются в обученные представления, либо производят обучение исключительно на уровне адаптеров и модулей тонкой настройки. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эмпирическая оценка методов проводилась на стандартных бенчмарках для zero-shot классификации, включая ImageNet и его различные смещения (ImageNet-A, ImageNet-R, ImageNet-Sketch), а также на специализированных датасетах для оценки адверсариальной робастности. Атаки оценивались как белые (PGD, AutoAttack), так и черные (Square Attack, Boundary Attack) сценарии, с фокусом на ImageNet-1K как основной тестовой площадке. Результаты показывают интересную динамику trade-off между чистой точностью (clean accuracy) и ад
Annotation:
This report synthesizes eight seminal papers on the zero-shot adversarial robustness of vision-language models (VLMs) like CLIP. A central challenge in this domain is the inherent trade-off between enhancing adversarial robustness and preserving the model's zero-shot generalization capabilities. We analyze two primary defense paradigms: Adversarial Fine-Tuning (AFT), which modifies model parameters, and Training-Free/Test-Time Defenses, which preserve them. We trace the evolution from alignment-...
ID: 2508.05237v1 cs.CV, cs.AI
Авторы:

Wei Xiang, Muchen Li, Jie Yan, Manling Zheng, Hanfei Zhu, Mengyun Jiang, Lingyun Sun

## КОНТЕКСТ И ПРОБЛЕМАТИКА Исследование посвящено критической проблеме взаимодействия человека и автоматизированных систем времён Level 3 автономного вождения, когда технологическая зрелость позволяет водителю временно отвлекаться на второстепенные задачи (получение сообщений, чтение, работа с мультимедиа), но при этом сохраняет за ним полную юридическую и физическую ответственность за контроль над транспортным средством в экстренных ситуациях. Этот «серый» режим автоматизации создаёт парадоксальную ситуацию: система снижает воспринимаемый риск, что побуждает водителя к снижению бдительности, однако в момент необходимости ручного вмешательства требует мгновенной реакции и переключения внимания с высокой когнитивной нагрузкой. Существующие решения (визуальные/аудиовизуальные предупреждения, вибрация руля, смена цветовой схемы салона) демонстрируют низкую эффективность: они либо не успевают вернуть водителя в режим контроля, либо вызывают стрессовую реакцию, ухудшая качество последующего управления. Ключевым вызовом является необходимость «мягко» и персонифицированно убедить водителя заранее сократить глубину вовлечённости во второстепенную активность, не вызывая чувства принуждения. Исследователи отмечают, что традиционные правило-ориентированные алгоритмы не способны учитывать контекст ситуации, эмоциональное состояние и индивидуальные особенности пользователя. Внедрение больших языковых моделей (LLM) открывает возможность создать «гуманизированный» помощник, способный вести диалог, аргументированно убеждать и адаптировать стиль коммуникации к конкретному водителю в реальном времени. ## ПРЕДЛОЖЕННЫЙ МЕТОД Архитектура системы Driver Assistant построена на иерархическом пайплайне из трёх основных компонентов: контекстный анализатор, генератор персонифицированных сообщений и мультимодальный интерфейс. Контекстный анализатор получает потоковые данные от датчиков Level 3 (камеры, радары, LiDAR, данные о полосе движения, плотности транспорта, погодных условиях) и вычисляет метрику «критичности ситуации» на горизонте 30–120 секунд. Эта метрика включает вероятность внезапного торможения впереди идущего транспорта, наличие пешеходов в зоне риска, сложность перестроения и другие параметры. По достижении порога (динамически калибруемого на основе истории поведения водителя) активируется генератор сообщений. Ядром генератора является дообученная модель GPT-3.5-Turbo (параметры 6.7B) на корпусе из 12 000 диалоговых сценариев, собранных в симуляторе CARLA и реальных дорожных тестах. Fine-tuning проводился с применением RLHF (Reinforcement Learning from Human Feedback): рецензенты-водители оценивали убедительность, ясность и эмпатичность сообщений. Система формирует текстовое/речевое сообщение длиной 20–40 слов, включающее: 1) конкретное наблюдение («светофор дальше перейдёт на жёлтый»), 2) рекомендацию по второстепенной задаче («лучше отложить ответ на сообщение»), 3) положительное подкрепление («вы вчера отлично справились в похожей ситуации»). Мультимодальный интерфейс выбирает канал доставки: ненавязчивое текстовое всплытие в нижней части HUD при умеренной критичности, или озвученное сообщение с TTS-моделью Microsoft Azure Cognitive Services при высокой. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для валидации проведено двухэтапное исследование: симуляционное (N=48 водителей) и полевое (N=24 водителя, 320 км дорог общего пользования). В симуляции участники выполняли когнитивно насыщенную задачу (пошаговое решение математических примеров на центральном дисплее) при вождении в режиме Level 3. Система случайным образом включала/отключала Driver Assistant. Первичные метрики: время реакции на takeover-запрос (TOR), частота отказов от второстепенной задачи до TOR, когнитивная нагрузка (NASA-TLX). Среднее время реакции снизилось с 3.8 до 2.1 секунды (p<0.001), доля «добровольных» прерываний задачи выросла с 23 % до
Annotation:
Level 3 automated driving systems allows drivers to engage in secondary tasks while diminishing their perception of risk. In the event of an emergency necessitating driver intervention, the system will alert the driver with a limited window for reaction and imposing a substantial cognitive burden. To address this challenge, this study employs a Large Language Model (LLM) to assist drivers in maintaining an appropriate attention on road conditions through a "humanized" persuasive advice. Our tool...
ID: 2508.05238v1 cs.HC, cs.AI
Авторы:

Yiheng Liu, Junhao Ning, Sichen Xia, Xiaohui Gao, Ning Qiang, Bao Ge, Junwei Han, Xintao Hu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Large language models (LLMs) являются мощными инструментами в области естественного языка, но их развертывание в реальных приложениях часто сталкивается с проблемами, связанными со скоростью выполнения и потреблением GPU-памяти. Одним из ключевых подходов к решению этих проблем является структурная обрезка (structured pruning), которая позволяет сократить размер модели, удаляя менее важные единицы структуры, такие как нейроны или связи между ними. Однако существующие методы structured pruning часто игнорируют важный аспект LLMs — взаимодействие и сотрудничество между искусственными нейронами, которые критически важны для функциональности моделей. Традиционные подходы к обрезке основываются на оценке важности отдельных единиц структуры, но не учитывают макроскопическую архитектуру функциональных сетей в LLMs. Такой подход может привести к разрушению важных функциональных взаимосвязей, что, в свою очередь, снижает эффективность самой обрезки. Чтобы решить эту проблему, необходимо рассмотреть LLMs как комплексные системы, где взаимодействие между нейронами играет ключевую роль в поддержании их функциональности. Вдохновленные природными аналогами, такими как функциональные нейронные сети человеческого мозга, авторы предлагают новый подход к обрезке LLMs. Этот подход основывается на идентификации и сохранении функциональных сетей внутри модели, что позволяет сохранить ключевые функции модели даже после существенной её компрессии. Такой метод предлагает более глубокое понимание внутренней структуры LLMs и может повысить эффективность их работы в реальных условиях. ## ПРЕДЛОЖЕННЫЙ МЕТОД В рамках этого исследования авторы предлагают метод обрезки LLMs, основанный на идентификации и сохранении функциональных сетей. Они рассматривают LLMs как "цифровой мозг", который можно разбить на функциональные сети, аналогично тому, как в области нейроимеджинга идентифицируют функциональные сети мозга. Этот подход позволяет выделить ключевые нейроны, которые играют важную роль в обеспечении функциональности модели. Первым шагом является декомпозиция LLMs на функциональные сети. Для этого используются методы, аналогичные тем, что применяются в нейроимеджинге для анализа мозговых сетей. После идентификации этих сетей, авторы сохраняют ключевые нейроны, необходимые для поддержания функциональности сетей. Затем происходит фаза обрезки, в которой удаляются менее важные нейроны, не входящие в функциональные сети. Этот подход позволяет сократить размер модели, сохранив при этом её функциональность. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов для оценки эффективности предлагаемого метода. Для этого использовались различные датасеты и модели LLMs. Результаты показали, что предлагаемый метод успешно идентифицирует и сохраняет функциональные сетей в LLMs, что приводит к более эффективной обрезке моделей. Кроме того, эксперименты показали, что сохранение ключевых нейронов внутри функциональных сетей позволяет сократить размер модели без существенного ухудшения качества её производительности. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предлагаемый метод обрезки LLMs имеет значительный практический потенциал. Он может быть применен для ускорения выполнения моделей и снижения потребления GPU-памяти, что делает LLMs более доступными для реального времени и мобильных приложений. Кроме того, этот подход может быть использован для оптимизации LLMs в различных доменах, где важна высокая скорость выполнения и низкие требования к ресурсам. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В итоге, предлагаемый метод обрезки LLMs представляет собой значительный шаг вперед в области компрессии моделей. Он не только позволяет сократить размер моделей, но и сохраняет их функциональность благодаря идентификации и сохранению ключевых функциональных сетей. Будущие исследования могут фокусироваться на дальнейшем улучшении этого метода и его применении к более широкому кругу задач и моделей.
Annotation:
Structured pruning is one of the representative techniques for compressing large language models (LLMs) to reduce GPU memory consumption and accelerate inference speed. It offers significant practical value in improving the efficiency of LLMs in real-world applications. Current structured pruning methods typically rely on assessment of the importance of the structure units and pruning the units with less importance. Most of them overlooks the interaction and collaboration among artificial neuron...
ID: 2508.05239v1 cs.CL, cs.AI, cs.LG
Авторы:

Junyi Wang, Xi Zhu, Yikun Guo, Zixi Wang, Haichuan Gao, Le Zhang, Fan Zhang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Регистрация магнитно-резонансных (MR) и ультразвуковых (US) изображений представляет собой критически важную задачу в нейрохирургии, особенно при планировании и навигации во время операций по удалению опухолей головного мозга. Современная нейрохирургическая практика требует точного совмещения предоперационных данных МРТ, которые предоставляют высококонтрастные анатомические структуры, с пострезекционными ультразвуковыми изображениями, которые позволяют врачам в реальном времени оценить полноту удаления опухолевой ткани. Однако существует ряд фундаментальных проблем, которые препятствуют эффективной регистрации этих модальностей. Первая и наиболее значительная проблема заключается в кардинальном различии физических принципов формирования изображений. МРТ использует ядерный магнетизм и радиочастотные импульсы для создания детализированных анатомических снимков, тогда как ультразвук основан на отражении акустических волн, что приводит к значительно более низкому пространственному разрешению и различным типам артефактов. Это различие приводит к тому, что даже одна и та же анатомическая структура будет выглядеть совершенно по-разному на изображениях разных модальностей. Вторая проблема связана с изменениями, происходящими в мозге во время операции. После вмешательства происходит смещение мозговых тканей, изменение формы желудочков, появление отёков и гематом, что делает прямую точечную регистрацию предоперационных и постоперационных изображений практически невозможной. Традиционные методы регистрации, основанные на сопоставлении интенсивностей пикселей, оказываются неэффективными из-за этих драматических изменений. Кроме того, существует проблема отсутствия парных данных для обучения. Получение идеально зарегистрированных пар MR-US изображений представляет собой трудоемкий и дорогостоящий процесс, который требует участия экспертов-радиологов и нейрохирургов. Это ограничивает возможности применения методов глубокого обучения, которые требуют больших объемов обучающих данных. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы статьи предлагают инновационный многоступенчатый подход к регистрации MR и US изображений, который решает описанные проблемы через комбинацию нейростилевого переноса и крупномасштабной деформируемой регистрации. Центральным элементом предложенной методики является использование 3D CycleGAN для генерации синтетических T1-взвешенных MR изображений из ультразвуковых данных, что позволяет существенно уменьшить разрыв между модальностями. Архитектура CycleGAN адаптирована для работы с трехмерными медицинскими изображениями. Генераторы модели используют 3D сверточные слои с пропусками (dilated convolutions) для увеличения рецептивного поля и эффективного захвата долгосрочных зависимостей в пространственных данных. Дискриминаторы реализованы в виде 3D PatchGAN, которые оценивают реалистичность локальных патчей размером 70x70x70 вокселей. Для стабилизации обучения применяется спектральная нормализация в слоях дискриминатора и цикловая консистентная потеря, которая гарантирует, что обратное преобразование восстановит исходное изображение. Процесс регистрации организован по схеме "грубо-к-тонкому" (coarse-to-fine). На первом этапе применяется аффинное преобразование, которое выполняет глобальное выравнивание изображений через вращение, масштабирование и трансляцию. Для оптимизации аффинных параметров используется нормализованная взаимная информация в качестве функции потерь, что позволяет эффективно работать даже при значительных различиях в интенсивностях между модальностями. На втором этапе реализуется локальная деформируемая регистрация с использованием свободно деформируемой модели (free-form deformation) на основе B-сплайнов. Деформационное поле параметризуется регулярной сеткой контрольных точек, где каждая точка может смещаться в трех направлениях. Для предотвращения чрезмерной деформации применяется гладкое регуляризационное слагаемое, которое штрафует большие значения градиентов деформационного поля. Оптимизация выполняется через градиентный спуск с адаптивным шагом обучения. ## ЭКСПЕРИМЕН
Annotation:
We developed a pipeline for registering pre-surgery Magnetic Resonance (MR) images and post-resection Ultrasound (US) images. Our approach leverages unpaired style transfer using 3D CycleGAN to generate synthetic T1 images, thereby enhancing registration performance. Additionally, our registration process employs both affine and local deformable transformations for a coarse-to-fine registration. The results demonstrate that our approach improves the consistency between MR and US image pairs in m...
ID: 2508.05240v1 eess.IV, cs.AI, cs.CV
Авторы:

Tianchen Fang, Guiru Liu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Медицинское изображение — ключевой элемент современной медицины, играющий решающую роль в автоматизированном диагностировании и поддержке клинических решений на основе данных. Однако прогресс в этой области сталкивается с двумя крупными препятствиями. Во-первых, значительный недостаток качественно аннотированных медицинских данных ограничивает разработку эффективных моделей. Во-вторых, существующие модели часто основываются на глобальных признаках изображений, что приводит к пропуску тонких, но клинически важных патологических регионов. Эти регионы могут содержать критическую информацию, необходимую для точного диагностирования. Дополнительная проблема заключается в том, что многие существующие визуально-языковые модели не специально адаптированы для медицинских данных, что ограничивает их эффективность в решении задач, связанных с медицинским изображением. Требуется новый подход, который бы сочетал глобальную семантическую информацию с локализованными, точечными признаками патологий, а также обеспечивал высокую точность в задачах, таких как извлечение изображений по тексту, классификация и визуальные ответы на вопросы. Решение этих проблем требует разработки модели, которая не только обучается на больших медицинских данных, но также учитывает региональные особенности изображений. Такой подход может существенно улучшить качество медицинского изображения и повысить эффективность клинических решений. ## ПРЕДЛОЖЕННЫЙ МЕТОД RegionMed-CLIP представляет собой инновационный region-aware мультимодальный контрастивный предварительный обучающий фреймворк, предназначенный для улучшения понимания медицинских изображений. Основной компонент этого метода — ROI (region-of-interest) процессор, который адаптивно интегрирует тонкие региональные признаки с глобальным контекстом изображения. Это позволяет модели сосредоточиться на клинически важных областях, не теряя при этом общую семантическую информацию. Для поддержки этого процесса авторы предлагают прогрессивную стратегию обучения, которая улучшает иерархическую мультимодальную алгоритмическую выравнивание. Это позволяет модели эффективно обучаться на больших медицинских данных, охватывающих различные уровни клинических описаний. Чтобы обеспечить масштабное обучение на уровне регионов, авторы создали MedRegion-500k — комплексный корпус медицинских изображений и текстов, который включает расширенные региональные аннотации и многоуровневые клинические описания. Этот корпус обеспечивает необходимые данные для обучения модели и позволяет достичь высокой точности в задачах, связанных с медицинским изображением. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели широкий спектр экспериментов для оценки эффективности RegionMed-CLIP. Эксперименты включали задачи изображения-текста, нулевой классификации и визуальные ответы на вопросы. Результаты показали, что RegionMed-CLIP значительно превосходит современные визуально-языковые модели во всех этих задачах. В частности, модель достигла высокой точности в извлечении изображений по тексту, что демонстрирует ее способность точно сопоставлять клинические описания с соответствующими медицинскими изображениями. Также, в задачах классификации и визуальных ответов на вопросы, RegionMed-CLIP показала значительное улучшение по сравнению с другими моделями. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ RegionMed-CLIP имеет широкий спектр практических применений в медицинской диагностике и поддержке клинических решений. Благодаря ее способности учитывать региональные особенности изображений, она может использоваться для точного диагностирования различных заболеваний, включая те, которые требуют высокой чувствительности к тонким патологическим изменениям. Кроме того, модель может быть использована для автоматизации процессов классификации и визуального анализа медицинских изображений, что сэкономит время и ресурсы в клинической практике. Ее прогрессивная структура и высокая точность делают ее идеальной для использования в крупных медицинских базах данных, где критически важно обеспечивать высокую точность и надежность. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ RegionMed-CLIP является передовым решением для медицинского изображения, которое эффективно сочетает глобальные и локальные признаки для улучшения точности диагностики. Будущие исследования могут расширить этот подход, включая большее количество клинических данных и улучшив точность модели в реальных клинических условиях. Также, можно исследовать возможности интеграции RegionMed-CLIP с другими медицинскими технологиями для создания более комплексных решений для медицинской диагностике.
Annotation:
Medical image understanding plays a crucial role in enabling automated diagnosis and data-driven clinical decision support. However, its progress is impeded by two primary challenges: the limited availability of high-quality annotated medical data and an overreliance on global image features, which often miss subtle but clinically significant pathological regions. To address these issues, we introduce RegionMed-CLIP, a region-aware multimodal contrastive learning framework that explicitly incorp...
ID: 2508.05244v1 cs.CV, cs.AI
Авторы:

Basna Mohammed Salih Hasan, Ramadhan J. Mstafa

## КОНТЕКСТ И ПРОБЛЕМАТИКА Классификация пола является важной областью в различных приложениях, таких как слежение и наблюдение, корпоративное профайлинг, и взаимодействие человека с компьютером. Определение пола человека представляет собой форму мягкой биометрии, которая помогает в идентификации личности. За последние годы было разработано множество методов для определения пола, основанных на различных физических признаках, таких как лицо, отпечатки пальцев, отпечатки ладони, ДНК, ухо, шаг и рост ребра. Однако методы, основанные на физических характеристиках лица, являются самыми популярными и широко используемыми. Одним из наиболее перспективных биометрических признаков является рост ребра. Исследования показали, что рост ребра остается вероятно константным на протяжении всей жизни человека. Кроме того, рост ребра виден извне и не требует вторжения в организм пользователя, что делает его удобным и практичным для реальных приложений. Доступны хорошо разработанные методы для сегментации и кодирования изображений роста ребра, что облегчает выбор и извлечение векторов атрибутов из текстур роста ребра. Однако, несмотря на широкое распространение методов классификации пола, существуют некоторые проблемы и пробелы в этой области. Например, многие существующие методы страдают от недостатков в точности и надежности, особенно при работе с большими и разнообразными наборами данных. Кроме того, существует потребность в более глубоком анализе и сравнении различных подходов для классификации пола, чтобы понять их сильные и слабые стороны. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данном исследовании предлагается детальный обзор и анализ различных методов классификации пола, основанных на росте ребра. Авторы предоставляют подробное описание методологий, используемых на различных этапах классификации пола. Обзор включает в себя различные подходы к сегментации и кодированию текстур роста ребра, а также методы извлечения и выбора векторов атрибутов. Авторы также обсуждают различные методы классификации, используемые в предыдущих исследованиях, и анализируют их эффективность. Они предлагают новые подходы и улучшения для существующих методов, направленные на повышение точности и надежности классификации пола. Кроме того, исследование охватывает использование различных алгоритмов машинного обучения и глубокого обучения для улучшения процесса классификации. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В исследовании проводятся эксперименты с использованием различных наборов данных для оценки эффективности предлагаемых методов. Авторы используют как синтетические, так и реальные данные для тестирования и сравнения различных подходов к классификации пола. Результаты экспериментов показывают, что предлагаемые методы могут достигать высокой точности классификации, особенно при использовании современных методов машинного обучения. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Классификация пола имеет широкое применение в различных областях, таких как безопасность, маркетинг, и медицинские исследования. Использование роста ребра как биометрического признака предоставляет некоторые преимущества, такие как неинвазивность и константность на протяжении жизни. Это делает его привлекательным для практических приложений, где необходима высокая точность и надежность. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В исследовании представлены основные достижения в области классификации пола на основе роста ребра. Авторы выделяют значительные улучшения в точности и надежности методов, а также предлагают направления для будущих исследований. Они подчеркивают необходимость дальнейшего исследования и разработки более эффективных методов для обработки и анализа текстур роста ребра. Кроме того, исследование выделяет необходимость в создании более крупных и разнообразных наборов данных для тестирования и улучшения методов классификации пола.
Annotation:
Gender classification is attractive in a range of applications, including surveillance and monitoring, corporate profiling, and human-computer interaction. Individuals' identities may be gleaned from information about their gender, which is a kind of soft biometric.Over the years, several methods for determining a person's gender have been devised. Some of the most well-known ones are based on physical characteristics like face, fingerprint, palmprint, DNA, ears, gait, and iris. On the other han...
ID: 2508.05246v1 cs.CV, cs.AI, cs.LG
Авторы:

Hyunjoon Lee, Joonkyu Min, Jaesik Park

## КОНТЕКСТ И ПРОБЛЕМАТИКА 3D Gaussian Splatting (3DGS) — это перспективный подход к представлению трехмерных сцен, который интегрирует богатые 2D-фундаментальные модели для повышения точности и качества. Несмотря на значительные улучшения, многие существующие методы опираются на низкоуровневые (bottom-up) оптимизационные процессы, где необработанные 2D-фундаментальные признаки рассматриваются как истинные данные. Такой подход требует высоких вычислительных ресурсов, что создает барьер для практического применения. Кроме того, большинство существующих методов обучают автоэнкодеры (autoencoders) в 2D-пространстве, а затем применяют их к 3D-данным, что может привести к несоответствию между распределением признаков в 2D и 3D-пространстве. Проблематика заключается в необходимости создания более компактных и эффективных методов для представления 3D-сцен, которые сохраняют детали геометрии и при этом снижают вычислительную сложность. Также важно обеспечить лучшее выравнивание между распределением признаков в 2D и 3D, чтобы повысить качество представления и снизить требования к ресурсам. ## ПРЕДЛОЖЕННЫЙ МЕТОД В статье предлагается новый подход под названием CF3 (Compact and Fast 3D Feature Fields), который решает вышеупомянутые проблемы путем внедрения топо-низкого (top-down) конвейера. Основные этапы метода включают: 1. **Быстрая взвешенная фьюжн (Weighted Fusion):** На первом этапе производится быстрая интеграция многоугольников 2D-фундаментальных признаков с предварительно обученными Гауссовыми распределениями. Это позволяет эффективно перенести информацию из 2D-пространства в 3D-пространство. 2. **Обучение автоэнкодера на 3D-данных:** В отличие от традиционных методов, CF3 обучает автоэнкодеры непосредственно на 3D-данных, поднятых из 2D-признаков. Это обеспечивает лучшее выравнивание распределения признаков между 2D и 3D-пространством. 3. **Адаптивная спарсификация (Adaptive Sparsification):** Для оптимизации представления 3D-сцены предлагается метод адаптивной спарсификации, который удаляет и сливает избыточные Гауссовы распределения. Это позволяет сократить количество используемых Гауссов на до 95% по сравнению с Feature-3DGS, сохраняя при этом детали геометрии. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты проводились на различных 3D-данных, включая сцены с высокой сложностью геометрии. CF3 демонстрирует следующие результаты: - **Уменьшение количества Гауссов:** Метод достигает высокого качества представления 3D-сцены, используя только 5% Гауссовых распределений по сравнению с Feature-3DGS. - **Снижение вычислительной сложности:** Благодаря адаптивной спарсификации и топо-низкому конвейеру, CF3 значительно сокращает время обработки и использование ресурсов. - **Сохранение геометрии:** Даже при существенном сокращении количества Гауссов, метод сохраняет детали геометрии, что подтверждается качественными и количественными оценками. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ CF3 имеет широкое применение в областях, требующих эффективное представление 3D-сцен, таких как: - **Виртуальная и дополненная реальность:** Компактные и быстрые 3D-представления могут улучшить производительность приложений VR/AR. - **3D-моделирование и визуализация:** Метод может быть использован для создания высококачественных и оптимизированных 3D-моделей для различных приложений. - **Автономные системы:** Низкие вычислительные требования делают CF3 пригодным для использования в автономных системах, таких как роботы и автономные автомобили. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ CF3 представляет собой эффективный и компактный метод для создания 3D-представлений, который сочетает в себе высокое качество и низкие вычислительные требования. Будущие исследования могут сосредоточиться на дальнейшем улучшении адаптивной спарсификации и интеграции CF3 с другими моделями для повышения качества и эффективности представления 3D-сцен.
Annotation:
3D Gaussian Splatting (3DGS) has begun incorporating rich information from 2D foundation models. However, most approaches rely on a bottom-up optimization process that treats raw 2D features as ground truth, incurring increased computational costs. We propose a top-down pipeline for constructing compact and fast 3D Gaussian feature fields, namely, CF3. We first perform a fast weighted fusion of multi-view 2D features with pre-trained Gaussians. This approach enables training a per-Gaussian autoe...
ID: 2508.05254v1 cs.CV, cs.AI
Авторы:

Zhouyao Qian, Yang Chen, Baodian Li, Shuyi Zhang, Zhen Tian, Gongsen Wang, Tianyue Gu, Xinyu Zhou, Huilin Chen, Xinyi Li, Hao Zhu, Shuyao Zhang, Zongheng Li, Siyuan Wang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Концентрация хлорофилла в морских водах является важным показателем состояния экосистемы и силы углеродного цикла. Точная прогнозирование этого показателя играет ключевую роль в предупреждении о «красных волнах» (red tide) и адаптивном управлении экологическими системами. Традиционные модели прогнозирования, такие как Long Short-Term Memory (LSTM) и Random Forest (RF), сталкиваются со сложностями в моделировании временных рядов и характеризации нелинейных зависимостей. LSTM хорошо справляется с временными зависимостями, но может быть неэффективен в портретировании комплексных нелинейных связей, тогда как RF Excel в нелинейных анализах, но страдает от недостатков в обработке временных последовательностей. В данном исследовании авторы предлагают гибридную модель LSTM-RF, которая сочетает преимущества обоих подходов, обеспечивая более точный прогноз концентрации хлорофилла. Использование многоисточниковых океанических данных, таких как температура, соленость, растворенный кислород и другие, позволяет создать комплексную модель, способную учитывать разнообразные факторы влияющие на экосистему. ## ПРЕДЛОЖЕННЫЙ МЕТОД Предлагаемая модель LSTM-RF состоит из двух основных компонентов: LSTM для моделирования временных рядов и RF для анализа нелинейных зависимостей. LSTM, как рекуррентная нейронная сеть, обрабатывает последовательности входных данных, учитывая их временной контекст. RF, с другой стороны, используется для извлечения и анализа нелинейных функций из входных данных. В качестве входных данных модель использует много источников океанической информации, включая температуру, соленость, растворенный кислород и другие физико-химические параметры. Для улучшения точности прогноза, авторы применили стандартизированную обработку данных и метод скользящего окна. Скользящее окно позволяет разбивать временные ряды на меньшие фрагменты, улучшая моделирование короткосрочных изменений. Архитектура модели включает два этапа: в первом этапе, LSTM обрабатывает временные ряды и генерирует временно-зависимые функции; во втором этапе, RF анализирует выходные данные LSTM и нелинейные зависимости между различными факторами. Такая комбинация позволяет добиться лучшей точности в прогнозировании концентрации хлорофилла. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности модели LSTM-RF, авторы провели сравнительные эксперименты с использованием только LSTM и только RF. Данные были получены из многоисточниковых океанических наборов данных, включающих температуру, соленость, растворенный кислород и другие параметры. Результаты показали, что LSTM-RF модель достигла коэффициента детерминации (R^2) в 0.5386, среднеквадратичную ошибку (MSE) в 0.005806, и среднюю абсолютную ошибку (MAE) в 0.057147 на тестовом наборе данных. Эти результаты значительно превосходят производительность модели LSTM (R^2 = 0.0208) и RF (R^2 = 0.4934) использованных в отдельности. Стандартизированная обработка данных и метод скользящего окна также улучшили точность модели. Эти методы позволили лучше учесть короткосрочные изменения в временных рядах и улучшить моделирование нелинейных зависимостей. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенная модель LSTM-RF имеет значительное практическое применение в области экологического мониторинга и управления. Точный прогноз концентрации хлорофилла может использоваться для предупреждения о «красных волнах» (red tide), что позволяет быстрее реагировать на экологические кризисы. Кроме того, модель может быть использована для мониторинга состояния экосистем, оценки влияния климатических изменений на морские экосистемы, и разработки стратегий адаптации. Преимущества LSTM-RF модели заключаются в ее способности обрабатывать многоисточниковые данные, обеспечивая более точный и надежный прогноз. Это может привести к улучшению систем мониторинга и управления экологическими ресурсами, а также повышению эффективности мер по сохранению биологического разнообразия. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В этом исследовании была разработана гибридная модель LSTM-RF, которая эффективно сочетает в себе способность LSTM к моделированию временных рядов и RF к анализу нелинейных зависимостей. Эксперименты показали, что модель достигает значительно вышей точности в прогнозировании концентрации хлорофилла по сравнению с использованием LSTM или RF в отдельности. Будущие исследования могут фокусироваться на дальнейшем улучшении модели, включая использование более разнообразных источников данных, оптимизацию параметров модели, и расширение ее применения на другие экологические переменные. Кроме того, можно исследовать возможности интеграции модели в реальные системы мониторинга для более эффективного управления экологическими ресурсами.
Annotation:
Marine chlorophyll concentration is an important indicator of ecosystem health and carbon cycle strength, and its accurate prediction is crucial for red tide warning and ecological response. In this paper, we propose a LSTM-RF hybrid model that combines the advantages of LSTM and RF, which solves the deficiencies of a single model in time-series modelling and nonlinear feature portrayal. Trained with multi-source ocean data(temperature, salinity, dissolved oxygen, etc.), the experimental results...
ID: 2508.05260v1 cs.LG, cs.AI
Авторы:

Suresh Guttikonda, Maximilian Neidhart, Johanna Sprenger, Johannes Petersen, Christian Detter, Alexander Schlaefer

## КОНТЕКСТ И ПРОБЛЕМАТИКА Коронарное шунтирование (CABG) остаётся «золотым стандартом» лечения многовеселой ишемической болезни сердца, но его долгосрочный успех напрямую зависит от проходимости создаваемых шунтов. Современные операционные залы оснащаются гибридными системами: после завершения анастомозов хирург может ввести флуоресцентный индикатор (чаще всего индоцианин-зелёный — ICG) и в реальном времени оценивать микроциркуляцию миокарда. Получаемые при этом видеопотоки (обычно 25–30 кадр/с, разрешение 512×512–1024×1024) содержат богатую динамическую информацию: начальный «wash-in» красителя, плато и «wash-out» фазы дают возможность вычислить количественные показатели — время до пика, скорость накопления, площадь под кривой и др. Эти параметры коррелируют с ранним функциональным результатом, позволяя хирургу принимать решение о корректировке плохо перфузируемых участков ещё до закрытия грудной клетки. Однако само сердце продолжает сокращаться, создавая сложную трёхмерную траекторию движения: поворот вокруг оси, смещение основания и вершины, а также высокочастотные вибрации, вызванные вентиляцией лёгких. Кроме того, при наполнении коронарных сосудов ICG структурно обогащается сеть мельчайших артериол и венул, что приводит к резким изменениям яркости, контраста и текстур. Традиционные методы отслеживания опорных точек — от простого KLT-трекера до современных свёрточных нейросетей (Siamese, GOTURN, SiamRPN) — терпят неудачу: либо теряют цель при масштабных изменениях, либо «прилипают» к похожим текстурам соседних сосудов. В результате хирург вынужден полагаться на субъективную оценку «на глаз», а количественная перфузионная карта остаётся неточной. Работа Guttikonda и коллег ставит цель разработать трекер, который был бы одновременно: 1) точным (ошибка < 5 px при разрешении 512×512), 2) устойчивым к контрастным всплескам, 3) масштабируемым до сотен одновременно отслеживаемых точек, и 4) работающим в реальном времени на оборудовании операционной. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают гибридную архитектуру, объединяющую классический фильтр частиц (Sequential Importance Resampling, SIR) с «циклической проверкой согласованности» (cyclic-consistency check). Вход — последовательность флуоресцентных кадров Iₜ, предобработанных гауссовым размытием (σ = 0.8 px) для подавления шумов CMOS-матрицы. Для каждого целевого ландшафта (например, bifurcation коронарной артерии) формируется множество из N = 300 частиц-гипотез {xₜⁱ}ᵢ₌₁ᴺ, где xₜⁱ = (u, v, ẋ, ẏ, θ, s) — 6-мерный вектор состояния: координаты, скорости, вращение и масштаб. Динамическая модель задаётся как xₜ = A xₜ₋₁ + qₜ, где A — матрица постоянной скорости, а qₜ ~ 𝒩(0, Q) учитывает случайные колебания миокарда. Главная инновация — двухэтапный цикл согласованности. Сначала прямой проход (forward pass): частицы прогнозируются из t–1 в t. Затем обратный проход (backward pass): те же частицы регрессируются обратно в t–1 и сравниваются с исходными положениями. Расстояние ‖xₜ₋₁ⁱ − x̂ₜ₋₁ⁱ‖ используется как метрика надёжности wₜⁱ ∝ exp(−‖·‖²/2σ²). Эта процедура эффективно подавляет «дрейф» на текстурно похожих сосудах: если частица ошиблась в прямом направлении, обратный шаг возвращает её далеко от истины, и её вес резко падает. Для измерения правдоподобия применяется адаптивное цветовое моделирование: каждая частица строит локальную цветовую гистограмму HSV (16×4×4 бина) вокруг якорной точки и сравнивает её с шаблоном H* из первого кадра с помощью дивергенции Бхаттачарьи. Также используется аппаратная оптимизация: вычисления распараллелены на GPU (CUDA kernels) с использованием shared memory для
Annotation:
Intraoperative fluorescent cardiac imaging enables quality control following coronary bypass grafting surgery. We can estimate local quantitative indicators, such as cardiac perfusion, by tracking local feature points. However, heart motion and significant fluctuations in image characteristics caused by vessel structural enrichment limit traditional tracking methods. We propose a particle filtering tracker based on cyclicconsistency checks to robustly track particles sampled to follow target lan...
ID: 2508.05262v1 cs.CV, cs.AI
Авторы:

Xiaoyang Zhang, Zhen Hua, Yakun Ju, Wei Zhou, Jun Liu, Alex C. Kot

## КОНТЕКСТ И ПРОБЛЕМАТИКА Инфракрасно-видимое изображение (IVIF) — это ключевой процесс в области компьютерного зрения, направленный на комбинацию тепловой радиации, присущей инфракрасным изображениям, и деталей текстуры, характерных для видимых изображений. Цель этого процесса — улучшить восприятие и повысить эффективность вычислительных задач, таких как наблюдение, распознавание объектов и мониторинг. Однако традиционные методы IVIF сталкиваются с серьёзными ограничениями. Проблема заключается в том, что существующие подходы часто не могут должным образом сохранить ключевые объекты и детали из-за отсутствия глубокого семантического понимания сцены. Это приводит к потере важной информации и возникновению артефактов в результирующем изображении. Кроме того, процесс слияния может привести к потере деталей и снижению качества изображения, что негативно сказывается на производительности в дополнительных задачах. Мотивация для разработки новых методов заключается в необходимости создания более эффективных решений, которые бы сочетали высокое качество изображений с сохранением ключевых семантических деталей. Подобные методы должны быть в состоянии обеспечить высокую точность функциональных задач, таких как распознавание и классификация, особенно в условиях, где исходные данные имеют различные модальности и сложность. В этой статье авторы предлагают SGDFuse — инновационный подход, который использует Segment Anything Model (SAM) для генерации высококачественных семантических масок. Эти маски служат явными приоритетов для улучшения процесса фузирования, обеспечивая тем самым более точный и высококачественный результат. ## ПРЕДЛОЖЕННЫЙ МЕТОД SGDFuse представляет собой уникальную комбинацию модели Conditional Diffusion Model (CDM) и Segment Anything Model (SAM) для достижения высококачественного и семантически осмысленного фузирования инфракрасных и видимых изображений. Архитектура метода основана на двух этапах. На первом этапе производится предварительное фузирование мультимодальных фичи с использованием традиционных подходов. На втором этапе SAM используется для генерации высококачественных семантических масок, которые вместе с результатом предварительного фузирования служат условием для оптимизации модели CDM. Это гарантирует, что процесс фузирования будет направлен на сохранение важной семантической информации и устранение артефактов. Ключевой момент метода заключается в том, что SAM предоставляет явные семантические приоритеты, которые помогают CDM в процессе шумоподавления и генерации изображений. Этот подход обеспечивает качество результата на высоком уровне, сохраняя при этом важные детали и структуру изображения. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели широкий набор экспериментов для оценки эффективности SGDFuse. Использовались различные наборы данных, включая инфракрасные и видимые изображения с различными условиями захвата. Результаты показали, что SGDFuse достигает лучших показателей по качественным и количественным показателям по сравнению с современными методами. В частности, SGDFuse показал значительное улучшение в плане сохранения деталей, уменьшения артефактов и повышения качества результирующих изображений. Эксперименты также подтвердили высокую адаптивность метода к различным задачам, таким как распознавание объектов и мониторинг, что делает его универсальным инструментом для практического применения. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ SGDFuse имеет широкое применение в различных областях, где важна высокая точность и качество обработки изображений. Этот метод может быть использован в таких областях, как наблюдение и мониторинг, распознавание объектов, медицинское изображение и системы безопасности. Его способность сохранять ключевые семантические детали и обеспечивать высокое качество изображений делает его важным инструментом для разработки высокопроизводительных систем компьютерного зрения. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ SGDFuse представляет собой значительный шаг вперёд в области IVIF, обеспечивая высококачественное и семантически осмысленное фузирование изображений. Будущие исследования могут фокусироваться на дальнейшем улучшении архитектуры, включая использование более продвинутых моделей для генерации семантических масок и оптимизации процесса фузирования. Кроме того, можно исследовать возможности применения этого подхода к другим модальностям изображений и задачам компьютерного зрения.
Annotation:
Infrared and visible image fusion (IVIF) aims to combine the thermal radiation information from infrared images with the rich texture details from visible images to enhance perceptual capabilities for downstream visual tasks. However, existing methods often fail to preserve key targets due to a lack of deep semantic understanding of the scene, while the fusion process itself can also introduce artifacts and detail loss, severely compromising both image quality and task performance. To address th...
ID: 2508.05264v1 cs.CV, cs.AI
Показано 33851 - 33860 из 34022 записей