📚 Саммари научных статей из arXiv

Найдено 835 результатов по запросу 'cs.CV, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Generalizable Holographic Reconstruction via Amplitude-Only Diffusion Priors

2025-09-18

Авторы:

Jeongsol Kim, Chanseok Lee, Jong Chul Ye, Mooseok Jang

#### Контекст Фазовая восстановление в линзопростых гранатообразных голограммах является основным, но недостаточно строго определенным заданием, так как связь между амплитудой и фазой в когерентной импедиансе является нелинейной. Данная проблема широко распространена в широком кругу областей, включая биологию, физику и инженерию. Существующие методы часто требуют наличия значительных объемов данных для обучения, что ограничивает их применимость в реальных условиях. Необходимо разработать универсальный, эффективный и гибкий подход, который мог бы восстановить амплитуду и фазу без необходимости использовать тренировочные данные, гарантирующих качество. #### Метод Мы предлагаем развитие метода, основанного на модели диффузии, которая принимает в качестве входных данных только амплитуду объекта. Эта модель обучается с использованием распределения градиентов, разделенных на слои для амплитуды и фазы. Основным принципом является использование предиктор-корректор фреймворма для оптимального восстановления. Мы используем различные типы объектов для тренировки модели, включая простые объекты, такие как полистирольные частицы, и более сложные, такие как биологические ткани. Метод также применим к различным конфигурациям импедиантной системы, включая линзопростые устройства. #### Результаты Мы проводим широкий набор экспериментов и симуляций, которые показывают высокую точность и ресультаты восстановления. Метод показывает свою устойчивость к различным условиям импедиантных систем и типам объектов, включая объекты, отличающиеся по форме и размеру. Мы также проверяем нашу модель на биологических объектах, таких как ткани, и получаем интересные результаты. Метод демонстрирует высокую гибкость и способность восстановления как простых, так и сложных объектов. #### Значимость Наш подход предлагает новый, универсальный подход к восстановлению амплитуды и фазы в гранатообразных голограммах. Он может быть применен в различных областях, таких как биологическая импедианта, инженерия, необходимые для компьютерных импедиантных приложений. Этот алгоритм является эффективным в решении нелинейных задач восстановления и может быть расширен для других задач в когерентной импедианте. #### Выводы Мы представили новый подход к восстановлению амплитуды и фазы в гранатообразных голограммах, использующий модель диффузии, обученную только на амплитуде. Метод продемонстрировал свою способность восстановить как простые, так и сложные объекты, а также демонстрировал

Annotation:

Phase retrieval in inline holography is a fundamental yet ill-posed inverse problem due to the nonlinear coupling between amplitude and phase in coherent imaging. We present a novel off-the-shelf solution that leverages a diffusion model trained solely on object amplitude to recover both amplitude and phase from diffraction intensities. Using a predictor-corrector sampling framework with separate likelihood gradients for amplitude and phase, our method enables complex field reconstruction withou...

ID: 2509.12728v1 physics.optics, cs.CV, cs.LG

arXiv PDF

📄 BATR-FST: Bi-Level Adaptive Token Refinement for Few-Shot Transformers

2025-09-18

Авторы:

Mohammed Al-Habib, Zuping Zhang, Abdulrahman Noman

## Контекст Виджет Трансформеры (ViTs) стали одним из ключевых инструментов в области компьютерного зрения, предлагая высокую точность и гибкость в различных задачах. Однако, применение ViTs в сценариях небольшого обучения (few-shot learning) сталкивается с несколькими проблемами. В первую очередь, недостаток данных в учебных выборках ограничивает эффективность обучения моделей. Во вторую, преобразование токенов в ViTs часто ограничивается простыми мердами сходства или неэффективными методами учета глобального контекста. Несомненно, что эти проблемы требуют новых подходов для повышения эффективности ViTs в небольших обучающих выборках. ## Метод BATR-FST (Bi-Level Adaptive Token Refinement for Few-Shot Transformers) предлагает двухэтапный подход для улучшения токенов в ViTs. Основной модуль, используемый во второй стадии, включает токенное кластеризации для локализованного взаимодействия, уточнение весов токенов с учетом неопределенности, и би-уровневую аттенцию для балансировки взаимодействия между кластерами. Для обеспечения семантической согласованности в BATR-FST также используется графовое распространение токенов, позволяющее лучше сохранять контекст между поддержками и запросами. Модель также включает классовую разделяющую настройку, повышающую дискриминацию между классами. ## Результаты BATR-FST проверено на трёх наборах данных для небольших обучающих выборок (few-shot datasets): miniImageNet, CIFAR-FS и FC100. Обучение проводилось в сценариях 1-shot и 5-shot, то есть с одним и пятью обучающими примерами на класс. Результаты показали, что BATR-FST превосходит существующие методы в обеих ситуациях. Это достигается благодаря продвинутой рефинированию токенов и эффективному учету контекста. Благодаря использованию Graph Token Propagation и Class Separation Penalty, BATR-FST также показал сильную устойчивость к overfitting и высокую точность в распознавании классов. ## Значимость BATR-FST может применяться в широком спектре задач компьютерного зрения, включая классификацию изображений, обнаружение объектов и другие задачи, где данные недостаточно, и требуется эффективное использование ресурсов. Метод предлагает существенные преимущества по сравнению с другими подходами, включая усовершенствованную точность и устойчивость к недостатку данных. В будущем, BATR-FST может быть расширен для работы с более сложными сценариями, такими как динамические выборки классов или многозадачное обучение. ## Выводы BATR-FST достигает выдающихся результатов в области небольших обучающих выборок, становясь новым стандартом для ViTs в few-shot learning. Будущие исследования будут направлены на расши

Annotation:

Vision Transformers (ViTs) have shown significant promise in computer vision applications. However, their performance in few-shot learning is limited by challenges in refining token-level interactions, struggling with limited training data, and developing a strong inductive bias. Existing methods often depend on inflexible token matching or basic similarity measures, which limit the effective incorporation of global context and localized feature refinement. To address these challenges, we propos...

ID: 2509.12768v1 cs.CV, cs.LG

arXiv PDF

📄 MMMS: Multi-Modal Multi-Surface Interactive Segmentation

2025-09-18

Авторы:

Robin Schön, Julian Lorenz, Katja Ludwig, Daniel Kienzle, Rainer Lienhart

## Контекст В последние годы визуальное воспроизведение и анализ изображений широко применяются в различных областях, таких как медицина, робототехника и анализ данных. Одна из важных задач в этой области — интерактивное выделение объектов на изображениях. Несмотря на развитие методов машинного обучения, интерактивное сегментационное решение по-прежнему сталкивается с рядом проблем. Одна из них — сегментация нескольких поверхностей, присутствующих в одной и той же сцене. Эти поверхности часто трудно отделить друг от друга из-за их почти гармоничного расположения или близости друг к другу. Это создает дополнительную сложность для методов, которые пытаются тщательно разделить эти поверхности. Кроме того, существующие метрики оценки не всегда учитывают характерные особенности данной задачи, что снижает качество оценки решений. В этой работе мы предлагаем метод, который адресует эти проблемы, основываясь на интерактивной сегментации с помощью нескольких модальностей. ## Метод Метод, представленный в данной работе, называется **MMMS (Multi-Modal Multi-Surface Interactive Segmentation)**. Основная идея заключается в использовании нескольких модальностей (например, RGB-изображение, не-RGB модели и кодированные щелчки пользователя) для улучшения качества сегментации. Метод построен на основе архитектуры сети, которая принимает в качестве входных данных RGB-изображение, не-RGB модели, неточный маска и кодированные щелчки. Модель предсказывает улучшенный маска сегментации на основе этого ввода. Одним из ключевых аспектов этого подхода является то, что RGB-сеть используется только в качестве черного ящика, чтобы обеспечить гибкость и удобство применения. Кроме того, мы применяем расширенную метрику оценки, которая учитывает специфику взаимодействия с несколькими поверхностями. Эта метрика, называемая NoC@90 (Number of Clicks at 90% accuracy), позволяет измерить точность сегментации с учетом трудностей взаимодействия с несколькими поверхностями. ## Результаты Мы провели эксперименты для оценки эффективности нашего подхода на двух наборах данных: DeLiVER и MFNet. На DeLiVER мы достигли снижения NoC@90 на 1.28 щелчков на каждую поверхность, а на MFNet — на 1.19 щелчков. Эти результаты показывают, что наш метод эффективно использует дополнительные модальности для улучшения сегментации. Базовая модель, основанная только на RGB-изображении, также продемонстрировала высокую эффективность в сценарии классической интерактивной сегментации, иногда давая лучшие результаты по сравнению с другими методами. Это показывает, что наш подход не только эффективен в многомодальной среде, но и может быть эффективен при использовани

Annotation:

In this paper, we present a method to interactively create segmentation masks on the basis of user clicks. We pay particular attention to the segmentation of multiple surfaces that are simultaneously present in the same image. Since these surfaces may be heavily entangled and adjacent, we also present a novel extended evaluation metric that accounts for the challenges of this scenario. Additionally, the presented method is able to use multi-modal inputs to facilitate the segmentation task. At th...

ID: 2509.12963v1 cs.CV, cs.LG

arXiv PDF

📄 Improving Accuracy and Efficiency of Implicit Neural Representations: Making SIREN a WINNER

2025-09-18

Авторы:

Hemanth Chandravamsi, Dhanush V. Shenoy, Steven H. Frankel

## Контекст Импровизация нейронных представлений (Implicit Neural Representations, INRs) представляют собой возможность представлять сложные сигналы, такие как звуки, изображения и 3D-формы, в виде нейросетевых моделей. Одним из первых и ключевых подходов в этой области является Sinusoidal Representation Networks (SIRENs). Несмотря на их перспективы, SIRENs сталкиваются с значимым ограничением: они могут сталкиваться с трудностями при интерпретации сигналов, которые выходят за пределы их частотной поддержки. Это приводит к проблеме "спектрального буфера", когда модель производит почти нулевые выходы и не может восстановить даже те частотные компоненты, которые входят в ее представимость. Этот вопрос требует решения, чтобы повысить точность и производительность SIRENs в обширных прикладных задачах. ## Метод WINNER (Weight Initialization with Noise for Neural Representations) — это новый подход к инициализации весов в SIRENs. Он использует гауссовую случайную вариацию весов с определенным распределением, которое определяется спектральным центром целевого сигнала. Этот метод эмулирует рандомные Фурье-образующие функции, но не добавляет дополнительных параметров для обучения. Эта методика позволяет повысить точность модели, особенно при работе с сигналами, которые выходят за частотную поддержку SIREN. Использованная архитектура WINNER ускоряет обучение и повышает точность воспроизведения сложных сигналов в сравнении с оригинальной SIREN. ## Результаты Чтобы проверить эффективность WINNER, его реализация проверена на различных данных, включая звуковые сигналы, изображения и 3D-формы. Эксперименты показали, что WINNER достигает значительного повышения точности воспроизведения в сравнении с базовым SIREN. Использование гауссового шума в инициализации весов увеличивает точность в десятки процентов в задачах воспроизведения звука, а также сокращает время обучения без влияния на структуру сети. Эти результаты показывают, что WINNER может значительно повысить производительность SIRENs в различных прикладных задачах. ## Значимость WINNER предлагает универсальный подход к инициализации весов, который может быть применен в различных задачах, включая синтез изображений, звуковых сигналов и 3D-моделей. Он позволяет устранить "спектральный буфер" и подстраивается под разные типы сигналов, что улучшает качество и точность модели. Этот подход также может быть применен в других глубоких нейронных сетях для оптимизации инициализации параметров. Эти достижения открывают новые пути для развития INR-технологий в интеллектуальных системах. ## Выводы WINNER (Weight Initialization with Noise for Neural Representations) является эффективным ре

Annotation:

We identify and address a fundamental limitation of sinusoidal representation networks (SIRENs), a class of implicit neural representations. SIRENs Sitzmann et al. (2020), when not initialized appropriately, can struggle at fitting signals that fall outside their frequency support. In extreme cases, when the network's frequency support misaligns with the target spectrum, a 'spectral bottleneck' phenomenon is observed, where the model yields to a near-zero output and fails to recover even the fre...

ID: 2509.12980v1 cs.CV, cs.LG

arXiv PDF

📄 Intelligent Vacuum Thermoforming Process

2025-09-18

Авторы:

Andi Kuswoyo, Christos Margadji, Sebastian W. Pattinson

## Контекст Область исследования — производство пластиковых изделий с использованием технологии вакуум-термообразования. Это процесс, основанный на нагревании пластика до гибкости и его формовании под действием вакуума. Однако в этой области существуют значительные проблемы, связанные с вариабельностью свойств материалов и различными конфигурациями инструментов. Эти факторы приводят к несогласованности качества продукции. Наличие таких проблем способствует мотивации разработки эффективных систем, которые могут предсказывать и оптимизировать параметры процесса, чтобы повысить качество изделий с минимальным потреблением ресурсов. ## Метод Методология исследования основывается на разработке и использовании визуальных данных, полученных в процессе теста на вакуум-термообразовании. Эти данные включают визуальные снимки из образцов, формованных в различных условиях. Чтобы обеспечить лучшую точность, разработчики применили техники аугментации изображений, которые повысили разнообразие и объем тренировочного материала. Для разработки модели, которая могла бы определять необходимые поправки в параметрах процесса, был использован алгоритм k-Nearest Neighbour (k-NN). Этот алгоритм сравнивал высококачественные с низкокачественными образцами, чтобы сопоставлять их с помощью признаков изображений. ## Результаты Эксперименты показали, что модель может точно определять и применять подходящие параметры процесса, включая нагрев, время нагрева и вакуум. Эти результаты были подтверждены сравнением результатов с текущими методами управления качеством. Модель демонстрировала способность снизить количество дефектов и увеличить эффективность производства. Данные исследования также показали, что модель эффективно работает даже при небольшом объеме данных, что является ключевым преимуществом для производственных систем. ## Значимость Полученные результаты имеют большое значение для производства пластиковых изделий, так как могут быть применены для улучшения качества в производственных условиях. Эта система позволяет экономить ресурсы и повысить производительность, уменьшая число неудачных изделий. Благодаря тому, что модель основывается на изображениях, она может быть применена в различных производственных условиях, что делает ее широко применимой в многих отраслях промышленности. ## Выводы Основным достижением является разработка и проверка модели, которая успешно решает проблему несогласованности качества в производстве вакуум-термообразуемых изделий. Будущие исследования будут сфокусированы на повышении точности модели, расширении области применения и улучшении интегра

Annotation:

Ensuring consistent quality in vacuum thermoforming presents challenges due to variations in material properties and tooling configurations. This research introduces a vision-based quality control system to predict and optimise process parameters, thereby enhancing part quality with minimal data requirements. A comprehensive dataset was developed using visual data from vacuum-formed samples subjected to various process parameters, supplemented by image augmentation techniques to improve model tr...

ID: 2509.13250v1 cs.CV, cs.LG, I.2.10; I.4.9

arXiv PDF

📄 ChartGaze: Enhancing Chart Understanding in LVLMs with Eye-Tracking Guided Attention Refinement

2025-09-18

Авторы:

Ali Salamatian, Amirhossein Abaskohi, Wan-Cyuan Fan, Mir Rayat Imtiaz Hossain, Leonid Sigal, Giuseppe Carenini

#### Контекст Картинки являются важной визуальной формой представления информации, играя ключевую роль в обмене информацией и принятии решений. Несмотря на то, что Large Vision-Language Models (LVLMs) демонстрируют последовательные улучшения во взаимодействии с картинками, при работе с задачами картиночного обращения (CQA) возникают проблемы. Одним из главных критериев является внимание моделей: часто они следят за незначимыми или некорректными областями картинки, что снижает точность и читаемость. Это говорит об ограничениях в текущих моделях и показывает необходимость усовершенствований. Наша мотивация заключается в создании новых технологий, которые позволят LVLMs более точно следовать человеческим газовым паттернам, улучшая качество решения задач. #### Метод Для изучения этой проблемы мы разрабатываем методологию ChartGaze, которая включает в себя сбор данных о газах человека во время выполнения задач по разбору картинок. Мы используем техники газового слежения (eye-tracking), чтобы регистрировать и анализировать точки внимания людей во время работы с картинкой. Для сравнения мы проводим эксперименты с LVLMs, которые применяются к той же задаче. Основным техническим решением является гибкое рефининиг привязки внимания моделей к значимым областям, основываясь на газах человека. Эта гибкость позволяет выравнивать модельное внимание с газами, увеличивая точность и понятность. #### Результаты Мы провели эксперименты с несколькими моделями LVLMs на данных ChartGaze. Наши результаты показывают, что применение газового рефининига приводит к существенным улучшениям. В частности, LVLMs показывают улучшение точности ответов на вопросы (CQA) до 2.56%, сравниваясь с базовыми версиями, не использующими газовую рефининигацию. Мы также провели сравнение субъективных результатов между гуманными и модельными газами, которое подтвердило, что модели, использующие ChartGaze, более точно следуют человеческим газам и, следовательно, демонстрируют более высокий уровень точности и читаемости. #### Значимость Наша работа имеет большой потенциал в различных областях, где качество интеракции с картинками играет ключевую роль. Например, в области медицины, управления проектами, финансов и образования модели, улучшенные с помощью ChartGaze, могут дать более точные и понятные ответы. Основные преимущества заключаются в увеличении точности, более естественных и понятных ответов, а также снижении возможности человеческого вмешательства для исправления модели. Эти достижения открывают новые пути к улучшению технологий работы с картинками, увеличивая их ценность в реаль

Annotation:

Charts are a crucial visual medium for communicating and representing information. While Large Vision-Language Models (LVLMs) have made progress on chart question answering (CQA), the task remains challenging, particularly when models attend to irrelevant regions of the chart. In this work, we present ChartGaze, a new eye-tracking dataset that captures human gaze patterns during chart reasoning tasks. Through a systematic comparison of human and model attention, we find that LVLMs often diverge ...

ID: 2509.13282v1 cs.CL, cs.CV, cs.LG

arXiv PDF

📄 QDFlow: A Python package for physics simulations of quantum dot devices

2025-09-18

Авторы:

Donovan L. Buterakos, Sandesh S. Kalantre, Joshua Ziegler, Jacob M Taylor, Justyna P. Zwolak

## Контекст На протяжении многих лет, квантовые точки (QD) становятся важной частью изучения квантовых эффектов и их применения в микро- и наноэлектронике. Однако, их исследование часто связано с трудностями в получении точных синтетических данных с метками, которые требуются для обучения и оценки машинного обучения (ML). Это ограничивает развитие ML-моделей, используемых для калибровки и эффективного управления QD-устройствами. Существующие методы страдают от нехватки данных с высокой разрешенностью и метками, которые могут полностью отражать физические процессы в QD-системах. QDFlow предлагает решение для этих проблем, обеспечивая синтетические данные с гарантированными метками, которые могут быть использованы для обучения и тестирования ML-моделей в области квантовой электроники. ## Метод QDFlow — это Python-пакет, разработанный для моделирования физических процессов в многокварковых устройствах. Он основывается на самоконсистентном решении уравнений Тома-Ферми и динамической модели капиллярной капацитивной связи. Эти модели позволяют симулировать зарядные стабильностные диаграммы и данные, полученные с помощью радиальных моделей, которые хорошо соответствуют реальным экспериментам. QDFlow предлагает широкий набор настраиваемых параметров, включая модели шума и физические параметры QD-системы. Это дает возможность генерировать богатые, разнообразные данные для разработки и тестирования ML-систем. Интегрируя эти модели в единую систему, QDFlow позволяет получать данные, которые могут быть использованы в различных задачах, от обучения до валидации. ## Результаты QDFlow был протестирован на различных задачах, включая калибровку и распознавание паттернов в данных стабильности заряда. В экспериментах, данные, созданные QDFlow, были сравнены с реальными экспериментальными данными, показав высокий уровень согласованности. Наборы данных, генерируемые QDFlow, позволяют получить точные модели ML, которые могут быть использованы для управления QD-системами в реальных условиях. Кроме того, широкий набор настраиваемых параметров дает возможность эмулировать различные условия эксперимента, что делает QDFlow универсальным инструментом для разработки ML-систем в области квантовой электроники. ## Значимость QDFlow широко может быть применен в области квантовой электроники, особенно в разработке и калибровке ML-систем. Он обеспечивает ряд преимуществ, включая генерацию большого количества данных для тестирования и оценки, а также возможность эмуляции различных условий эксперимента. Помимо этого, QDFlow может способствовать улучшению качества и то

Annotation:

Recent advances in machine learning (ML) have accelerated progress in calibrating and operating quantum dot (QD) devices. However, most ML approaches rely on access to large, high-quality labeled datasets for training, benchmarking, and validation, with labels capturing key features in the data. Obtaining such datasets experimentally is challenging due to limited data availability and the labor-intensive nature of labeling. QDFlow is an open-source physics simulator for multi-QD arrays that gene...

ID: 2509.13298v1 cond-mat.mes-hall, cs.CV, cs.LG, quant-ph

arXiv PDF

📄 Human + AI for Accelerating Ad Localization Evaluation

2025-09-18

Авторы:

Harshit Rajgarhia, Shivali Dalmia, Mengyang Zhao, Mukherji Abhishek, Kiran Ganesh

## Контекст Адаптация рекламы для многоязычных аудиторий представляет собой более сложную задачу, чем простая текстовая переводка. Эта процедура требует сохранения визуальной консистенции, пространственной аналогии и стилистической целостности в разных языках и форматах. Несмотря на развитие технологий, существуют значительные проблемы в управлении частями текста, внедрении информации в изображения, локализации рекламных позиций, а также в поддержании стилистической целостности при переводе. Наша мотивация заключается в разработке системы, которая объединяет автоматические компоненты и человеческий вклад для оптимизации процесса локализации рекламных материалов. ## Метод Мы предлагаем структурированный подход, который объединяет методы автоматизированной обработки и человеческий опыт. Алгоритм начинает с использования системы обнаружения и преобразования текста на сценах (Scene Text Detection and Inpainting), чтобы извлечь и перестроить текстовые элементы на рекламных изображениях. Затем, машинный перевод (Machine Translation, MT) используется для перевода текста на целевой язык. Наконец, текст реимпозируется на изображение с помощью методов внедрения, обеспечивая сохранение стилистической целостности. Эта система адаптируются для работы в реальных условиях и используется для ускорения процесса локализации рекламных материалов. ## Результаты Мы провели эксперименты на шести разных языках и форматах. Наши результаты показывают, что автоматизированные компоненты обеспечивают высокую точность в обнаружении и преобразовании текста, а также эффективность в машинном переводе. Человеческий вклад помогает улучшить точность и гармонию результатов. Основываясь на этих экспериментах, мы показали, что наш подход может значительно ускорить процесс локализации рекламных материалов, сохранив соответствующую точность и стилистическую целостность. ## Значимость Наш подход может применяться во многих областях, включая массовую рекламу, интернет-магазины и локальные медиа. Он обеспечивает значительное ускорение процесса локализации рекламы, повышает точность и качество, а также уменьшает необходимое время и затраты на ручную работу. Этот подход поднимает уровень локализации рекламы на новый уровень, позволяя быстрее адаптироваться к многоязычным аудиториям и повышая эффективность в международной рекламе. ## Выводы Мы представили первый рабочий подход, который объединяет методы автоматизации и человеческий опыт для ускорения процесса локализации рекламных материалов. Наши эксперименты показали, что наш подход эффек

Annotation:

Adapting advertisements for multilingual audiences requires more than simple text translation; it demands preservation of visual consistency, spatial alignment, and stylistic integrity across diverse languages and formats. We introduce a structured framework that combines automated components with human oversight to address the complexities of advertisement localization. To the best of our knowledge, this is the first work to integrate scene text detection, inpainting, machine translation (MT), ...

ID: 2509.12543v1 cs.AI, cs.CV, cs.LG

arXiv PDF

📄 MEGAN: Mixture of Experts for Robust Uncertainty Estimation in Endoscopy Videos

2025-09-18

Авторы:

Damola Agbelese, Krishna Chaitanya, Pushpak Pati, Chaitanya Parmar, Pooya Mobadersany, Shreyas Fadnavis, Lindsey Surace, Shadi Yarandi, Louis R. Ghanem, Molly Lucas, Tommaso Mansi, Oana Gabriela Cula, Pablo F. Damasceno, Kristopher Standish

#### Контекст В области медицинского искусственного интеллекта (МИИ), надежный кванторный анализ (Uncertainty Quantification, UQ) является ключевым для обеспечения надежности и качества результатов. Особенно это актуально при оценке заболеваний, таких как ульцерозная колитис (Ulcerative Colitis, UC), где интервальная вариативность между экспертами является распространенной проблемой. Традиционные методы, такие как Monte Carlo (MC) Dropout и Deep Ensembles (DE), хотя и эффективны для UQ, часто основываются на аннотациях от одного эксперта, что недостаточно учитывает эту вариативность. #### Метод Мы предлагаем MEGAN (Mixture of Experts for Robust Uncertainty Estimation) — сеть, основанную на многоэкспертной модели Evidential Deep Learning (EDL). Эта модель объединяет несколько версий МОД, каждая из которых обучалась на разных аннотационных источниках, отражающих вариативность между экспертами. Гаттинг-сеть MEGAN оптимально объединяет эти модели, уменьшая суммарные ошибки и улучшая калибровку результатов. Наша архитектура позволяет объединять множество "экспертов" с разными источниками данных, что обеспечивает разрешение проблемы вариативности. #### Результаты Мы провели эксперименты на корпусе видео endoscopy для оценки серьезности UC по Mayo Endoscopic Subscore (MES). Результаты показали, что MEGAN превышает традиционные методы: F1-score улучшился на 3.5%, а Expected Calibration Error (ECE) сократился на 30.5%. Модель также позволила установить приоритеты при выборе образцов для аннотации, что может существенно снизить нагрузку на экспертов и улучшить эффективность интерпретации данных. #### Значимость MEGAN оказалась эффективной в области UC-диагностики, но её принципы могут быть распространены на другие медицинские задачи, где важна точная оценка неуверенности. Важность MEGAN также заключается в снижении количества необходимых аннотаций, что сокращает время и ресурсы, необходимые для работы экспертов. #### Выводы Мы доказали, что MEGAN превосходит традиционные методы в некоторых аспектах UQ в медицинских видео. Будущие исследования будут направлены на расширение модели MEGAN для обработки более сложных задач и учета дополнительных факторов, таких как географическая и историческая вариативность между экспертами.

Annotation:

Reliable uncertainty quantification (UQ) is essential in medical AI. Evidential Deep Learning (EDL) offers a computationally efficient way to quantify model uncertainty alongside predictions, unlike traditional methods such as Monte Carlo (MC) Dropout and Deep Ensembles (DE). However, all these methods often rely on a single expert's annotations as ground truth for model training, overlooking the inter-rater variability in healthcare. To address this issue, we propose MEGAN, a Multi-Expert Gatin...

ID: 2509.12772v1 eess.IV, cs.AI, cs.CV, cs.LG

arXiv PDF

📄 Gesture Evaluation in Virtual Reality

2025-09-18

Авторы:

Axel Wiebe Werner, Jonas Beskow, Anna Deichler

## Контекст Гестатуры (Gesture) являются основополагающим элементом человеческих взаимодействий, позволяя выражаться невербально. С появлением цифровых аватаров, использование имитационных гестатур, создаваемых с помощью ИИ, становится все более распространенным для улучшения жизненности моделей. Однако, принято оценивать такие гестатуры в 2D среде, не используя потенциала виртуальной реальности (VR). Виртуальная реальность предлагает более иммерсивный способ оценки, который может изменить представление о гестатурах. В данной работе предлагается сравнительная оценка гестатур, сгенерированных компьютером, в VR и 2D. Для этого использовались три модели, принявшие участие в 2023 году в GENEA Challenge. ## Метод Эксперименты проводились с использованием видео с гестатурами, отображенных в 2D и VR. Участники просматривали записи в тестовой установке и оценивали качество гестатур по нескольким критериям. Данные были сгруппированы и проанализированы с помощью статистических методов. Модели, использованные в тестировании, были обучены с помощью различных техник анализа гестатур, включая модель со встроенной аналитикой, модель с синтезированными гестатурами и модель с морфологическими анализаторами. Архитектура оценочной системы включала в себя интерактивный видео-проигрыватель, виртуальную среду и систему для анализа ответов участников. ## Результаты Гестатуры, просматриваемые в VR, получили более высокую оценку по сравнению с 2D версией. Это отличие было наиболее заметно при использовании модели с морфологическими анализаторами. Однако, рейтинги моделей оставались стабильными в обоих условиях. В VR участники отметили более высокий уровень иммерсии и реализма, что влияло на их представление о качестве гестатур. Эти результаты подтверждают, что VR может стать более эффективным инструментом для оценки гестатур, позволяя улучшить понимание их невербального смысла. ## Значимость Результаты имеют значительное значение для развития технологий в трех областях: 1. **Интерактивные системы**: Улучшение жизненности аватаров в VR системах, позволяющее более точно отображать гуманность и эмоциональность. 2. **Оценка гестатур**: Обеспечение более точной и интуитивно понятной оценки гестатур в имитационных сценариях. 3. **Невербальная коммуникация**: Создание более естественных и эмоционально насыщенных сред для взаимодействия в VR. ## Выводы Основными достижениями являются установленные преимущества VR для оценки гестатур и выявленные отличия в поведении участников в зависимости от среды

Annotation:

Gestures are central to human communication, enriching interactions through non-verbal expression. Virtual avatars increasingly use AI-generated gestures to enhance life-likeness, yet evaluations have largely been confined to 2D. Virtual Reality (VR) provides an immersive alternative that may affect how gestures are perceived. This paper presents a comparative evaluation of computer-generated gestures in VR and 2D, examining three models from the 2023 GENEA Challenge. Results show that gestures ...

ID: 2509.12816v1 cs.HC, cs.AI, cs.CV, cs.LG, 68T50, 68T07, 68U35, H.5.1; H.5.2; I.2.10; I.3.7

arXiv PDF

1
2
56
57
58
59
60
83
84

Показано 571 - 580 из 835 записей