📚 Саммари научных статей из arXiv

Найдено 835 результатов по запросу 'cs.CV, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Development of a Neural Network Model for Currency Detection to aid visually impaired people in Nigeria

2025-08-27

Авторы:

Sochukwuma Nwokoye, Desmond Moru

## Контекст В настоящее время, глобально около 2,2 миллиарда людей страдают различными формами визуальных нарушений. Для них пространственное восприятие остается основной проблемой, ограничивающей их способность взаимодействовать с окружающим миром. Эта ситуация является критической, особенно в странах с развивающимся экономикой, где социальная интеграция и полноценное участие в жизни общества требуют дополнительных мер поддержки. Одна из наиболее трудных задач для инвалидов зрения является ориентация в пространстве и выявление объектов. Например, выявление и различение купюр является важной задачей для независимого обращения на рынке. Существующие решения, такие как термопринтеры или устройства с экономическими счетчиками, зачастую оказываются недостаточно эффективными, так как не поддерживают все формы валюты и могут быть дорогостоящими для многих пользователей. В этом контексте исследование рассматривает потенциал искусственных нейронных сетей для определения валюты в реальном времени, с целью сделать жизнь инвалидов зрения проще и более удобной. ## Метод Для этого исследования была применена сверточная сеть с глубиной 19 слоев (SSD, Single Shot Multibox Detector), которая широко используется в зоне распознавания объектов на изображениях. Изначально была собрана пользовательская выборка содержащая 3 468 изображений, включающих различные валюты, такие как 200 Нигерийских Нира (₦200), 500 ₦ и 1000 ₦. Изображения были запечатлены в разных условиях света, чтобы повысить общую надёжность сети. Для обучения сети была использована алгоритмическая модификация сверточных сетей с глубиной 19 слоев, которая призвана улучшить достоверность распознавания. Для эффективного обработки изображений и их превращения в видеопоток, алгоритм работал на устройстве с графическим процессором NVIDIA Tesla K80, что обеспечивало необходимую производительность для реального времени. ## Результаты Проведенные эксперименты показали, что система обладает высокой точностью распознавания. Средняя точность (Mean Average Precision) составила 91,2% при распознавании 200 ₦ и 93,4% при распознавании ₦500 и ₦1000. Эти результаты были получены в реальном времени с задержкой в 30 миллисекунд, что делает систему пригодной для практического применения. Кроме того, система была протестирована на разных уровнях освещённости и углов обзора, что подтвердило её устойчивость к различным условиям окружения. ## Значимость Важность данного исследования заключается в возможности повысить независимость инвалидов зрения в повседневных д

Annotation:

Neural networks in assistive technology for visually impaired leverage artificial intelligence's capacity to recognize patterns in complex data. They are used for converting visual data into auditory or tactile representations, helping the visually impaired understand their surroundings. The primary aim of this research is to explore the potential of artificial neural networks to facilitate the differentiation of various forms of cash for individuals with visual impairments. In this study, we bu...

ID: 2508.18012v1 cs.CV, cs.LG

arXiv PDF

📄 Incorporating Pre-trained Diffusion Models in Solving the Schrödinger Bridge Problem

2025-08-27

Авторы:

Zhicong Tang, Tiankai Hang, Shuyang Gu, Dong Chen, Baining Guo

## Контекст Область исследований, связанная с методами генерирования и моделирования сложных распределений, широко применяется в машинном обучении, графике и физике. Одним из ключевых задач рассматривается решение Шредингеровской логистической задачи, которая связана с оптимальным переходом между двумя распределениями в пространстве вероятностей. Данная задача имеет широкие приложения в оптимизации, теории информации и геометрии. Однако ее разрешение часто требует высокого вычислительного затрат и стабильности алгоритмов. Мотивация заключается в развитии эффективных методов, которые могут ускорить и улучшить решение этой задачи. ## Метод Проposed разработан метод, который интегрирует Score-based Generative Models (SGMs), также известные как Diffusion models, с теорией Шредингера. Метод основывается на трех новых репараметризационных техниках: Iterative Proportional Mean-Matching (IPMM), Iterative Proportional Terminus-Matching (IPTM) и Iterative Proportional Flow-Matching (IPFM). Эти техники позволяют оптимизировать и стабилизировать обучение моделей. Кроме того, предлагается новая стратегия инициализации, использующая предварительно обученные SGMs для старта обучения моделей Шредингера. Это позволяет выгодно объединить преимущества обеих моделей. ## Результаты В экспериментах применены различные данные, включая синтетические и реальные. Проверена эффективность новых техник и инициализации в решении задачи Шредингера. Результаты показали, что использование SGMs для инициализации значительно ускоряет обучение моделей Шредингера и улучшает качество решения. Также доказано, что использование IPMM, IPTM и IPFM способствует стабильности и точности решения задач, снижая вычислительные затраты. ## Значимость Предложенный подход может быть применен в различных областях, включая компьютерную графику, физическое моделирование и оптимизационные задачи. Он обеспечивает более эффективное и стабильное решение задач Шредингера, что может улучшить качество работ в генетических алгоритмах, графическом дизайне и других технологиях. Этот метод также может способствовать развитию новых алгоритмов генерирования и моделирования в области искусственного интеллекта. ## Выводы Наше исследование продемонстрировало, что интеграция SGMs в модели Шредингера с помощью IPMM, IPTM и IPFM значительно улучшает их эффективность и стабильность. Мы также показали, что использование предварительно обученных SGMs как инициализации может значительно ускорить обучение и улучшить результаты. Эти достижения открывают новые пути для будущих исследований в области моделей генерирования, оптимизации и работы с сложными распределениями.

Annotation:

This paper aims to unify Score-based Generative Models (SGMs), also known as Diffusion models, and the Schr\"odinger Bridge (SB) problem through three reparameterization techniques: Iterative Proportional Mean-Matching (IPMM), Iterative Proportional Terminus-Matching (IPTM), and Iterative Proportional Flow-Matching (IPFM). These techniques significantly accelerate and stabilize the training of SB-based models. Furthermore, the paper introduces novel initialization strategies that use pre-trained...

ID: 2508.18095v1 cs.CV, cs.LG

arXiv PDF

📄 BirdRecorder's AI on Sky: Safeguarding birds of prey by detection and classification of tiny objects around wind turbines

2025-08-27

Авторы:

Nico Klar, Nizam Gifary, Felix P. G. Ziegler, Frank Sehnke, Anton Kaifel, Eric Price, Aamir Ahmad

#### Контекст В последние десятилетия широко распространяется использование ветряных турбин для генерирования энергии. Однако эта практика часто конфликтует с защитой природы и охраной вида, особенно животных, живущих в близи турбин. В частности, временами идет конфликт с видами, например с красными воробьями (Milvus milvus). Эти птицы часто сталкиваются с турбинами, что приводит к потере вида. Чтобы уменьшить этот конфликт, необходимо создать системы автоматического распознавания и защиты птиц. Целью нашего рабочего проекта является создание системы под названием BirdRecorder, которая использует современные методы ИИ для точного распознавания и классификации птиц в радиусе до 800 метров, чтобы предотвратить конфликты между турбинами и видами. #### Метод BirdRecorder представляет собой систему, основанную на ИИ, которая использует роботизированные системы, телеметрию и высокопроизводительные алгоритмы распознавания. Основой этой системы является использование Single Shot Detector (SSD) для распознавания птиц на дистанции до 800 метров. Для ускорения вычислений и обеспечения реального времени мы используем оптимизированные алгоритмы и аппаратные решения. Мы также внедрили систему наблюдения и сигнализации, которая может автоматически отслеживать и сигнализировать о птицах в области зрения турбин. Этот подход позволяет значительно улучшить точность распознавания и позволяет системе принимать решения в реальном времени, чтобы предотвратить конфликты с птицами. #### Результаты Мы провели полярные тесты с участием BirdRecorder на нескольких местоположениях, где были установлены ветряные турбины. В этих тестах мы сравнили точность распознавания BirdRecorder с другими существующими системами автоматического распознавания. Наши результаты показали, что BirdRecorder обеспечивает высокую точность распознавания с ошибками около 5%. Это свидетельствует о том, что наша система превосходит другие системы в целом, а также показывает свою эффективность в реальных условиях. Также мы провели анализ потерь вида в близости к турбинам и нашли, что использование BirdRecorder существенно уменьшает количество столкновений с птицами. #### Значимость BirdRecorder может использоваться в различных областях, где требуется защита птиц от конфликтов с технологическими объектами, например, вокруг турбин или в аэропортах. Его преимущество в том, что он может работать в реальном времени и обеспечивает точность, необходимую для эффективной защиты птиц. Это также может способствовать более устойчивому использованию ветряных турбин, уменьшая потери вида и сочетая энергети

Annotation:

The urgent need for renewable energy expansion, particularly wind power, is hindered by conflicts with wildlife conservation. To address this, we developed BirdRecorder, an advanced AI-based anti-collision system to protect endangered birds, especially the red kite (Milvus milvus). Integrating robotics, telemetry, and high-performance AI algorithms, BirdRecorder aims to detect, track, and classify avian species within a range of 800 m to minimize bird-turbine collisions. BirdRecorder integrate...

ID: 2508.18136v1 cs.CV, cs.LG, cs.RO, cs.SY, eess.SY

arXiv PDF

📄 SpotEdit: Evaluating Visually-Guided Image Editing Methods

2025-08-27

Авторы:

Sara Ghazanfari, Wei-An Lin, Haitong Tian, Ersin Yumer

## Контекст Визуально-гидованные методы редактирования изображений, которые основываются на визуальных сигналах и текстовых стимулах, стали мощным инструментом для тонкого и контролируемого создания контента. Несмотря на впечатляющие достижения современных генерирующих моделей, существующие методы оценки недостаточно представляют собой реальных вызовов в реальном мире. Они либо ограничиваются одним типом генерирующей модели, либо проводят тестирование на небольших датасетах. Это приводит к недостаточной глубине и объему оценки. Мы предлагаем SpotEdit — подробный бенчмарк для систематической оценки методов визуально-гидованного редактирования изображений. Он охватывает разные типы моделей, включая diffusion, autoregressive и hybrid. Наши результаты показывают существенные различия в производительности между моделями и даже внутри одной модели на разных наборах данных. Также включена компонента, посвященная проблеме hallucination, чтобы раскрыть ошибки, обнаруженные в моделях типа GPT-4, которые визуально неверно интерпретируют изображений и выполняют редактирование. ## Метод SpotEdit представляет собой новый бенчмарк, разработанный для оценки визуально-гидованных методов редактирования изображений. Он содержит три основных компонента: 1. **Edits-in-Context**: Набор задач редактирования, включающий три группы — простые, сложные и противоречивые — для охвата широкого спектра сложностей. 2. **Hallucination Evaluation**: Отдельный компонент, оценивающий ошибки моделей в интерпретации визуальных сигналов. Он выявляет ситуации, когда модель выполняет редактирование, хотя нужного визуального сигнала отсутствует. 3. **Benchmarking Across Models**: Мы оценили SpotEdit на трех видах генерирующих моделей: diffusion, autoregressive и hybrid. Это позволяет сравнивать производительность различных подходов и понимать, в каких ситуациях они выигрывают. ## Результаты Мы проводили эксперименты на SpotEdit с помощью трех моделей: DALL-E 2, SD-2, и Stable Diffusion. Результаты показали существенные различия в производительности между моделями. Например, DALL-E 2 показала высокую точность в простых сценариях, но существенно упала в сложных сценариях. SD-2, в свою очередь, показала более стабильные результаты, но все же не совсем справилась с противоречивыми задачами. Модели hybrid показали самые высокие результаты во всех типах задач, но все равно подвергались ошибкам в редких случаях. Анализ на компоненте Hallucination показал, что модели GPT-4 часто визуально неверно интерпретируют изображения, что приводит к некорректному выполнению задачи. ## Значимость SpotEdit предоставляет систематический подход к оценке визуально-ги

Annotation:

Visually-guided image editing, where edits are conditioned on both visual cues and textual prompts, has emerged as a powerful paradigm for fine-grained, controllable content generation. Although recent generative models have shown remarkable capabilities, existing evaluations remain simple and insufficiently representative of real-world editing challenges. We present SpotEdit, a comprehensive benchmark designed to systematically assess visually-guided image editing methods across diverse diffusi...

ID: 2508.18159v1 cs.CV, cs.LG

arXiv PDF

📄 Scene-Aware Vectorized Memory Multi-Agent Framework with Cross-Modal Differentiated Quantization VLMs for Visually Impaired Assistance

2025-08-27

Авторы:

Xiangxiang Wang, Xuanyu Wang, YiJia Luo, Yongbin Yu, Manping Fan, Jingtao Zhang, Liyong Ren

## Контекст В последние годы становится все важнее развивать технологии, которые могут помогать людям с ограниченными возможностями. Одним из таких направлений является создание систем, которые могут помогать людям с ограниченным зрением. Эти системы должны обеспечивать реальной помощи в решении каждыйдневных задач, таких как распознавание объектов, чтение текста и навигация в окружающем пространстве. Однако существуют серьезные технические и экономические вызовы, связанные с созданием таких систем, в частности, высокими требованиями к памяти и вычислительным ресурсам. Этот уникальный контекст побудил авторов разработать новую модель, которая не только эффективна с точки зрения памяти, но и может обеспечивать реальное временное помощью людям с ограниченным зрением. ## Метод Так называемая **Scene-Aware Vectorized Memory Multi-Agent Framework** является объединением нескольких инновационных технологий. Во-первых, она включает в себя **cross-modal differentiated quantization framework**, который способен эффективно уменьшить объем памяти, необходимого для хранения модели, без ущерба к ее качеству. Во-вторых, архитектура **scene-aware vectorized memory** позволяет многоагентной системе классифицировать сцены, хранить векторные представления в памяти и взаимодействовать многомодально. Эта система включает в себя рабочий процесс связанных с **perception-memory-reasoning**, который позволяет модели не только производить анализ окружающей среды в реальном времени, но и использовать исторические данные для супервазии и расширения видимого пространства. ## Результаты В ходе экспериментов был продемонстрирован то, что модель с поддержкой **quantization**, уменьшившихся до 16GB, по-прежнему сохраняет высокую точность работы. На примере MMBench, модель с 19 миллиардами параметров демонстрирует лишь небольшой ущерб в производительности (2.05%), сохраняя высокий уровень точности на задаче OCR-VQA (63.7%, в сравнении с 64.9% для более больших моделей). Благодаря применению многоагентной системы, модель обеспечивает быстрый ответ (от 2.83 до 3.52 секунд) для сцены, при этом выполняя процесс свертки в реальном времени. Это означает, что модель не только эффективна, но и может обеспечить реальное временное потребность в ряде приложений для помощи людям с ограниченным зрением. ## Значимость Система может применяться в различных сценариях, включая помощь в ориентировании по окружающей среде, распознавание текстов и предоставление краткого обзора сцен. Особенно важно, что модель эффективна в плане памяти и вычислительных ресурсов, что делает её привлекательной для реализации в реальном времени. Данная технология имеет

Annotation:

This study proposes the dual technological innovation framework, including a cross-modal differ entiated quantization framework for vision-language models (VLMs) and a scene-aware vectorized memory multi-agent system for visually impaired assistance. The modular framework was developed implementing differentiated processing strategies, effectively reducing memory requirements from 38GB to 16GB while maintaining model performance. The multi-agent architecture combines scene classification...

ID: 2508.18177v1 cs.CV, cs.LG, cs.MA

arXiv PDF

📄 Emerging Semantic Segmentation from Positive and Negative Coarse Label Learning

2025-08-27

Авторы:

Le Zhang, Fuping Wu, Arun Thirunavukarasu, Kevin Bronik, Thomas Nichols, Bartlomiej W. Papiez

## Контекст В последние годы интерес к подходам в области машинного обучения, ориентированных на сегментацию изображений, продолжает расти. Одним из основных задач в этой области является обучение моделей классификации сегментов изображений (сегментация) с помощью наборов данных, подвергнутых точным разметкам. Однако получение таких разметок требует большого количества ресурсов, в том числе времени и экспертных знаний, что ограничивает применение таких подходов в практических задачах. Другой подход заключается в использовании координатов изображений, где каждый пиксель помечен как относящийся к одной из категорий. Однако этот подход также ограничен временем и сложностью работы. В этой работе мы предлагаем новый подход, использующий грубую разметку изображений как точек данных для обучения сегментационных сетей, что позволяет уменьшить время и сложность процесса разметки. ## Метод Мы предлагаем метод, основанный на обучении двух связанных сетей с помощью грубой разметки изображений: положительных (целевых) и отрицательных (без целевых) классов. Основная идея заключается в том, чтобы использовать грубую разметку для того, чтобы обучить сеть так, чтобы она могла выделить целевые классы из изображений. Мы используем две связанные сети, чтобы улучшить точность разметки. Одна из сетей обучается для распознавания целевых классов, в то время как другая сеть обучается для распознавания нецелевых классов. Мы также добавляем отдельный модуль для учёта шумовых пикселей в грубой разметке, чтобы сократить ошибки при обучении. Этот подход позволяет сети быстрее и точнее выделять целевые объекты в изображениях. ## Результаты Мы проверили нашу модель на двух разных наборах данных: Cityscapes (для многоклассовой сегментации) и наборе данных с ретинальными изображениями (для медицинских применений). Мы сравнили наше решение с существующими методами, использующими только точные разметки. В результатах показано, что наш метод демонстрирует значительное улучшение в точности сегментации, особенно при использовании грубой разметки вместо точных разметок. Мы также проводили эксперименты с использованием шумных данных, показав, что наш метод может обучаться даже при наличии ошибок в разметке. ## Значимость Наш метод может быть использован в ситуациях, когда доступ к точным разметкам ограничен, например, в сфере медицинских изображений или в промышленных приложениях, где получение точных разметок требует больших затрат. Мы считаем, что наш подход может существенно уменьшить время, необходимое для подготовки данных для обучения, и позволить использовать грубую разметку вместо точных разметок.

Annotation:

Large annotated datasets are vital for training segmentation models, but pixel-level labeling is time-consuming, error-prone, and often requires scarce expert annotators, especially in medical imaging. In contrast, coarse annotations are quicker, cheaper, and easier to produce, even by non-experts. In this paper, we propose to use coarse drawings from both positive (target) and negative (background) classes in the image, even with noisy pixels, to train a convolutional neural network (CNN) for s...

ID: 2508.18186v2 cs.CV, cs.LG

arXiv PDF

📄 MaRVL-QA: A Benchmark for Mathematical Reasoning over Visual Landscapes

2025-08-27

Авторы:

Nilay Pande, Sahiti Yerramilli, Jayant Sravan Tamarapalli, Rynaa Grover

## Контекст Многомодальные большие языковые модели (МЛЛМ) показали ощутимый успех в области семантического описания изображений. Однако их возможности по глубокому математическому и пространственному рассуждению из изображений остаются практически неизученными. Этот фронтарный вопрос требует усилий по преодолению семантического шума и сосредоточения внимания на специализированных задачах. Математические сурфаце-плотсы представляют собой ключевую тестовую среду для такого рассуждения, так как они исключают семантический шум, присутствующий в натуральных изображениях. Однако их использование в качестве исследовательской площадки ограничивается отсутствием метрик для квантитативной оценки. Для закрытия этой лазурной дыры мы предлагаем MaRVL-QA (Mathematical Reasoning over Visual Landscapes), новую б benckmark, которая сосредотачивается на измерении глубины логического рассуждения на основе изображений. ## Метод MaRVL-QA состоит из двух задач, которые требуют глубокой пространственной и математической логики: "Топологическое Числение" и "Трансформационное Различие". Задача "Топологическое Числение" включает в себя идентификацию и счет пространственных особенностей, таких как максимумы и минимумы. "Трансформационное Различие" отвечает за распознавание примененных геометрических трансформаций. Для построения б benckmark была создана библиотека функций с четкими требованиями к чистоте логики и минимальному уровню амбигуности. Эти функции были преобразованы в изображения с помощью генератора графиков, чтобы создать набор данных, сохраняющий логику, но требующий высокой степени профессионального зрения. ## Результаты Мы провели эксперименты с MaRVL-QA с использованием нескольких современных МЛЛМ. Наши результаты показывают, что даже самые современные модели сталкиваются с значительными сложностями при выполнении этих задач. Они часто прибегают к грубым хормовцам, вместо того чтобы применять глубокое пространственное рассуждение. Это свидетельствует о недостатке в способности моделей к непосредственному выводу специализированных знаний из изображений. Наши результаты подчеркивают необходимость в развитии моделей с более глубокими возможностями пространственного рассуждения. ## Значимость MaRVL-QA может использоваться в качестве инструмента для измерения прогресса в области математического рассуждения на основе изображений. Он позволяет открывать ограничения текущих моделей и определять направления для их улучшения. Бенчмарк также может способствовать развитию новых методов, которые будут иметь более г

Annotation:

A key frontier for Multimodal Large Language Models (MLLMs) is the ability to perform deep mathematical and spatial reasoning directly from images, moving beyond their established success in semantic description. Mathematical surface plots provide a rigorous testbed for this capability, as they isolate the task of reasoning from the semantic noise common in natural images. To measure progress on this frontier, we introduce MaRVL-QA (Mathematical Reasoning over Visual Landscapes), a new benchmark...

ID: 2508.17180v1 cs.AI, cs.CV, cs.LG

arXiv PDF

📄 Optimizing Grasping in Legged Robots: A Deep Learning Approach to Loco-Manipulation

2025-08-27

Авторы:

Dilermando Almeida, Guilherme Lazzarini, Juliano Negri, Thiago H. Segreto, Ricardo V. Godoy, Marcelo Becker

## Контекст Легкоходные роботы, оборудованные руками, представляют собой мощный инструмент для решения задач в сложных и нестанционарных условиях. Однако достижение точных и адаптивных захватов остается сложной задачей, требующей значительных усилий в области калибровки и предварительной настройки. Эти ограничения существенно сужают потенциал роботов в различных сферах, включая промышленность, поисковые и спасательные операции. Целью настоящего исследования является разработка методологии, позволяющей улучшить точность и адаптивность захвата, используя глубокое обучение и симуляционные модели. ## Метод Разработанная методология основывается на методе sim-to-real, который минимизирует необходимость постоянного применения физических данных. Для этого был создан симуляционный модельный пайплайн в среде Genesis. Модель генерирует набор данных, включающий пиксельно аннотированные карты качества захвата, используя RGB, дебатские карты и другие источники данных. Затем эти данные использовались для тренировки настраиваемой модели CNN с архитектурой U-Net. Эта модель оценивает качество захвата, выдавая графический heatmap с оптимальным точкой захвата. ## Результаты Разработанный подход был протестирован на роботе с четырьмя ногами. Результаты показали, что робот может самостоятельно назначить маршрут к мероприятию, определить позицию объекта с помощью RGB и дебатских карт, сгенерировать оптимальную точку захвата с помощью глубокого обучения, а затем выполнить точный захват. Эксперименты продемонстрировали эффективность разработанной системы в решении сложных задач захвата в реальном мире. ## Значимость Разработанная методология открывает новые возможности для расширения практического применения легкоходных роботов в таких областях, как промышленность, автоматизация, поисковые и спасательные операции. Основное преимущество заключается в своей способности обучаться на симуляционных моделях и применять это в реальном мире, что значительно сокращает время настройки и развитие новых приложений. ## Выводы Результаты исследования подтверждают, что систематическое использование моделей глубокого обучения в сочетании с симуляционными моделями может улучшить возможности захвата легкоходных роботов. Будущие исследования будут направлены на расширение области применения методологии и увеличение точности захвата в различных средах.

Annotation:

Quadruped robots have emerged as highly efficient and versatile platforms, excelling in navigating complex and unstructured terrains where traditional wheeled robots might fail. Equipping these robots with manipulator arms unlocks the advanced capability of loco-manipulation to perform complex physical interaction tasks in areas ranging from industrial automation to search-and-rescue missions. However, achieving precise and adaptable grasping in such dynamic scenarios remains a significant chall...

ID: 2508.17466v1 cs.RO, cs.AI, cs.CV, cs.LG, cs.SY, eess.SY

arXiv PDF

📄 GWM: Towards Scalable Gaussian World Models for Robotic Manipulation

2025-08-27

Авторы:

Guanxing Lu, Baoxiong Jia, Puhao Li, Yixin Chen, Ziwei Wang, Yansong Tang, Siyuan Huang

#### Контекст Улучшение производительности роботов в задачах робототехнического манипулирования является ключевым подходом для решения широкого круга задач, от производственной автоматизации до помощи роботам в домашних условиях. Однако традиционные подходы, основанные на наблюдениях и действиях в реальном мире, требуют больших объемов данных и долгого обучения, что делает их неэффективными. Одним из продвинутых подходов является обучение роботов в мире моделей, где среда окружающего мира представляется в виде мировой модели. Однако существующие мировые модели часто используют мозговые хаки или генерируют недостаточно точные представления. Наша модель, Gaussian World Model (GWM), предлагает развитие этого подхода, используя принципы гауссовых процессов для точного предсказания будущих сцен. #### Метод GWM использует **diffusion transformer**, который основывается на принципах гауссовых процессов для предсказания будущих сцен. Модель 3D-вариационного автокодировщика позволяет визуально представить сцены, а трансформер обеспечивает точное представление. Была предложена концепция **Gaussian Splatting**, которая позволяет генерировать 3D-сцены с большой контрастностью и оптимальным использованием ресурсов. Таким образом, GWM может генерировать точные представления трехмерной среды, что необходимо для улучшения стратегии робота. #### Результаты Мы провели эксперименты в симуляции и реальном мире, используя различные сцены и действия. Результаты показали, что GWM может предсказывать точные сцены с учетом различных действий робота. Эти предсказания имеют низкую ошибку и повторяемость. Мы также провели сравнение с другими моделями, и результаты показали, что GWM превосходит их в предсказании точности и времени обработки. Наша модель предоставила значительное улучшение в параметрах качества и эффективности. #### Значимость GWM может быть применена в различных областях, включая имитационное обучение, моделирование визуальных сцен, прогнозирование дальнейшего поведения робота. Она предоставляет высокую точность и эффективность, что делает ее полезной в развитии моделей манипулирования. Кроме того, GWM может быть использована в качестве робототехнического симулятора, что повышает производительность. Это открывает новые возможности для решения задач в связи с роботом, что делает GWM ключевым инструментом в этой области. #### Выводы Мы представили новую модель, GWM, которая значительно улучшила точность предсказания будущих сцен в робототехническом манипулировании. Мы также продемонстрировали значительные преимущества GWM по сравнению с другими моделями.

Annotation:

Training robot policies within a learned world model is trending due to the inefficiency of real-world interactions. The established image-based world models and policies have shown prior success, but lack robust geometric information that requires consistent spatial and physical understanding of the three-dimensional world, even pre-trained on internet-scale video sources. To this end, we propose a novel branch of world model named Gaussian World Model (GWM) for robotic manipulation, which reco...

ID: 2508.17600v1 cs.RO, cs.AI, cs.CV, cs.LG

arXiv PDF

📄 MeshSplat: Generalizable Sparse-View Surface Reconstruction via Gaussian Splatting

2025-08-27

Авторы:

Hanzhi Chang, Ruijie Zhu, Wenjie Chang, Mulin Yu, Yanzhe Liang, Jiahao Lu, Zhuoyuan Li, Tianzhu Zhang

## Контекст Одна из основных задач в области компьютерного зрения и графики — восстановление поверхностей. Несмотря на прогресс в этой области, существующие методы сталкиваются с трудностями при восстановлении точной геометрии сцены при очень существенном сокращении количества входных просмотров (sparse-view input). Это ограничивает применение этих методов в реальных сценариях, где данные могут быть неполными или недостаточно четкими. Мы предлагаем MeshSplat, новый подход к решению этой проблемы, основанный на идее использования 2D Gaussian Splatting (2DGS) как связующего звена между неучитываемым нового вида (novel view synthesis) и учтенной геометрической информацией. ## Метод MeshSplat использует 2DGS для предсказания изображений с новым видом и извлечения геометрических признаков. Шаг первый — обучение глубокой нейронной сети для предсказания 2DGS на основе входных просмотров. Второй шаг — использование прогнозируемых 2DGS для визуализации изображений с новым видом. Для точности предсказания входят в расчет Weighted Chamfer Distance Loss, который устраняет ложные минимумы в пространстве глубины, и Normal Prediction Network, которая регулирует ориентацию 2DGS в соответствии с нормальными векторами, вычисленными монокулярным сеткой. Эти компоненты обеспечивают точное восстановление геометрии сцены даже при очень существенном урезании количества входных просмотров. ## Результаты Мы проводили значительные эксперименты для проверки MeshSplat. Для этого использовались разнообразные данные, включая сцены с большим количеством просмотров и сцены, созданные с очень небольшим числом просмотров. Наши результаты показывают, что MeshSplat превосходит существующие методы по метрикам качества восстановления (например, Chamfer Distance и F-Score). Особое внимание уделено сценариям с малой доступной информацией, где метод MeshSplat показывает самые хорошие результаты. ## Значимость MeshSplat может применяться в различных областях, включая виртуальную реальность, анимацию, архитектурные модели и другие приложения, требующие точного восстановления геометрических форм на основе неполных входных данных. Основное преимущество MeshSplat заключается в его общивости и устойчивости к данным с малой доступностью, что делает его выгодным для реальных сценариев, когда входные данные не полны. Мы также выделяем потенциал MeshSplat в улучшении существующих технологий по визуализации и моделированию. ## Выводы MeshSplat представляет собой прорыв в области общивой реконструкции геометрии сцены при очень существенном сокращении количества просмотров. Мы продемонстировали его эффективность на различных сценах и данных. Наша работа

Annotation:

Surface reconstruction has been widely studied in computer vision and graphics. However, existing surface reconstruction works struggle to recover accurate scene geometry when the input views are extremely sparse. To address this issue, we propose MeshSplat, a generalizable sparse-view surface reconstruction framework via Gaussian Splatting. Our key idea is to leverage 2DGS as a bridge, which connects novel view synthesis to learned geometric priors and then transfers these priors to achieve sur...

ID: 2508.17811v1 cs.GR, cs.AI, cs.CV, cs.LG

arXiv PDF

1
2
70
71
72
73
74
83
84

Показано 711 - 720 из 835 записей