📚 Саммари научных статей из arXiv

Найдено 101 результатов по запросу 'cs.LG, cs.RO' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34123 Добавлено сегодня: 101

Последнее обновление: сегодня

📄 Interpretable Decision-Making for End-to-End Autonomous Driving

2025-08-28

Авторы:

Mona Mirzaie, Bodo Rosenhahn

## Контекст Автоматизированная система управления автомобилями является ключевым элементом развития дорожного транспорта. Однако для распространенного применения таких систем необходимо обеспечить доверие к их решениям. Это особенно важно в современных городских условиях, где необходимо адекватное восприятие сложных сценариев. Несмотря на продвижение технологий, особенно в области глубокого обучения, не всегда возможно понять, что влияет на решения моделей. Это проблема становится еще более актуальной при использовании неглубоких моделей, которые не всегда могут выделять ключевые области в изображении, отвечающие за прогнозирование движения. Наша модель стремится решить эту проблему, обеспечивая лучшую прозрачность в автоматизированных системах управления. ## Метод Мы предложили новую архитектуру нейронной сети, нацеленную на улучшение интерпретируемости решений в автономном вождении. Наша модель основывается на глубоких нейронных сетях с применением специальных функций потерь, которые поощряют спарсинг и локализованные активации фич. Это позволяет модели определять именно те области изображения, которые подпитывают прогноз движения. Мы также внедрили методы абляционных исследований, чтобы определить, как различные этапы модели влияют на интерпретируемость и на целевые показатели производительности. Наши эксперименты проводились на бенчмарке CARLA, что дало возможность оценить модель в сложных городских условиях. ## Результаты Мы провели обширные эксперименты, включая абляционные исследования, которые показали, что наша модель более эффективно выделяет значимые области изображения, что в свою очередь повышает надежность и безопасность автономного вождения. Наша модель показала самые низкие показатели нарушений правил дорожного движения и самую высокую степень прохождения маршрутов в среднем, что демонстрирует ее превосходство по сравнению с другими моделями на CARLA Leaderboard. Благодаря использованию только одного монитора, что важно для реального применения, высокая прозрачность наших решений стала достижением, которое дополнительно повысило безопасность на дорогах. ## Значимость Наша модель может быть применена в автономных системах управления, где важно понимать причины прогнозируемых решений. Она предоставляет новые возможности для глубокого понимания и доверия к моделям, что может быть применено в дорожной безопасности и управлении транспортом. Этот подход может иметь потенциал для улучшения доверия к AI в сфере автоматизированного вождения, что может привести к ее более широкому применению в реальной жизни. ## Выводы Мы предложили модель, которая обеспечивает лучшую про

Annotation:

Trustworthy AI is mandatory for the broad deployment of autonomous vehicles. Although end-to-end approaches derive control commands directly from raw data, interpreting these decisions remains challenging, especially in complex urban scenarios. This is mainly attributed to very deep neural networks with non-linear decision boundaries, making it challenging to grasp the logic behind AI-driven decisions. This paper presents a method to enhance interpretability while optimizing control commands in ...

ID: 2508.18898v1 cs.CV, cs.AI, cs.LG, cs.RO

arXiv PDF

📄 BirdRecorder's AI on Sky: Safeguarding birds of prey by detection and classification of tiny objects around wind turbines

2025-08-27

Авторы:

Nico Klar, Nizam Gifary, Felix P. G. Ziegler, Frank Sehnke, Anton Kaifel, Eric Price, Aamir Ahmad

#### Контекст В последние десятилетия широко распространяется использование ветряных турбин для генерирования энергии. Однако эта практика часто конфликтует с защитой природы и охраной вида, особенно животных, живущих в близи турбин. В частности, временами идет конфликт с видами, например с красными воробьями (Milvus milvus). Эти птицы часто сталкиваются с турбинами, что приводит к потере вида. Чтобы уменьшить этот конфликт, необходимо создать системы автоматического распознавания и защиты птиц. Целью нашего рабочего проекта является создание системы под названием BirdRecorder, которая использует современные методы ИИ для точного распознавания и классификации птиц в радиусе до 800 метров, чтобы предотвратить конфликты между турбинами и видами. #### Метод BirdRecorder представляет собой систему, основанную на ИИ, которая использует роботизированные системы, телеметрию и высокопроизводительные алгоритмы распознавания. Основой этой системы является использование Single Shot Detector (SSD) для распознавания птиц на дистанции до 800 метров. Для ускорения вычислений и обеспечения реального времени мы используем оптимизированные алгоритмы и аппаратные решения. Мы также внедрили систему наблюдения и сигнализации, которая может автоматически отслеживать и сигнализировать о птицах в области зрения турбин. Этот подход позволяет значительно улучшить точность распознавания и позволяет системе принимать решения в реальном времени, чтобы предотвратить конфликты с птицами. #### Результаты Мы провели полярные тесты с участием BirdRecorder на нескольких местоположениях, где были установлены ветряные турбины. В этих тестах мы сравнили точность распознавания BirdRecorder с другими существующими системами автоматического распознавания. Наши результаты показали, что BirdRecorder обеспечивает высокую точность распознавания с ошибками около 5%. Это свидетельствует о том, что наша система превосходит другие системы в целом, а также показывает свою эффективность в реальных условиях. Также мы провели анализ потерь вида в близости к турбинам и нашли, что использование BirdRecorder существенно уменьшает количество столкновений с птицами. #### Значимость BirdRecorder может использоваться в различных областях, где требуется защита птиц от конфликтов с технологическими объектами, например, вокруг турбин или в аэропортах. Его преимущество в том, что он может работать в реальном времени и обеспечивает точность, необходимую для эффективной защиты птиц. Это также может способствовать более устойчивому использованию ветряных турбин, уменьшая потери вида и сочетая энергети

Annotation:

The urgent need for renewable energy expansion, particularly wind power, is hindered by conflicts with wildlife conservation. To address this, we developed BirdRecorder, an advanced AI-based anti-collision system to protect endangered birds, especially the red kite (Milvus milvus). Integrating robotics, telemetry, and high-performance AI algorithms, BirdRecorder aims to detect, track, and classify avian species within a range of 800 m to minimize bird-turbine collisions. BirdRecorder integrate...

ID: 2508.18136v1 cs.CV, cs.LG, cs.RO, cs.SY, eess.SY

arXiv PDF

📄 A Synthetic Dataset for Manometry Recognition in Robotic Applications

2025-08-27

Авторы:

Pedro Antonio Rabelo Saraiva, Enzo Ferreira de Souza, Joao Manoel Herrera Pinheiro, Thiago H. Segreto, Ricardo V. Godoy, Marcelo Becker

## Контекст Автоматизация промышленных процессов, в том числе в сфере нефтяного и газового дела, становится все более важной в условиях возрастающих требований к безопасности и экономичности. Одной из ключевых задач в этой области является развитие систем автоматического распознавания объектов, таких как трубы или манометры, в условиях труднодоступных и опасных промышленных объектов, таких как нефтяные платформы. Однако, наличие реальных данных для обучения моделей существенно ограничено систематическими и экономическими ограничениями. Добыча данных в таких условиях не только трудоемка, но и связана с высокими рисками. Данная статья рассматривает проблему и предлагает решение в виде гибридной синтетической системы синтеза данных. ## Метод Предложенная методология основывается на синтезе систематически регулируемых синтетических данных и нейросетевых моделей. Используется BlenderProc для создания фотореалистичных изображений с высокоточными аннотациями. Это позволяет контролировать доменные различия и улучшать регуляризацию моделей. В качестве дополнительного инструмента использована Cosmos-Predict2, которая генерирует видео последовательности с визуальной разнообразием и физически достоверным поведением. Изначально синтетические данные комбинируются с реальными, чтобы обучить и проверить модели на их основе. Это позволяет повысить точность моделей даже при небольших объемах реальных данных. ## Результаты Эксперименты проводились на сочетании реальных и синтетических данных. Была проанализирована степень влияния различных доляв синтетических данных на точность моделей. Оказалось, что модель, обученная на комбинации 50% синтетических и 50% реальных данных, показала наивысшую точность. Это свидетельствует о мощности синтетического подхода в развитии систем распознавания в условиях низкого объема реальных данных. ## Значимость Данный подход имеет широкое применение в сфере автоматизации промышленных процессов, в частности в сфере нефтяного и газового дела. Он позволяет эффективно решать проблему недостатка данных различных промышленных систем, включая не только распознавание объектов, но и другие задачи, такие как слежение за движением и динамикой объектов. Благодаря синтетической системе можно создавать безопасные, экономичные и надежные системы распознавания, что делает его привлекательным для развития беспилотных систем и систем с низким риском в опасных промышленных условиях. ## Выводы Результаты демонстрируют, что синтетический подход является эффективным для развития моделей распознавания объектов в условиях недостатка реальных данных. Будущ

Annotation:

This work addresses the challenges of data scarcity and high acquisition costs for training robust object detection models in complex industrial environments, such as offshore oil platforms. The practical and economic barriers to collecting real-world data in these hazardous settings often hamper the development of autonomous inspection systems. To overcome this, in this work we propose and validate a hybrid data synthesis pipeline that combines procedural rendering with AI-driven video generati...

ID: 2508.17468v1 cs.CV, cs.AI, cs.LG, cs.RO

arXiv PDF

📄 HOSt3R: Keypoint-free Hand-Object 3D Reconstruction from RGB images

2025-08-26

Авторы:

Anilkumar Swamy, Vincent Leroy, Philippe Weinzaepfel, Jean-Sébastien Franco, Grégory Rogez

## Контекст Руко-предметное взаимодействие и трехмерное воспроизведение сцен являются ключевыми аспектами в приложениях для человеко-роботного взаимодействия и иммерсивных AR/VR-опытов. Однако, трехмерное воспроизведение рук и предметов на основе RGB-видео становится сложной задачей из-за различной геометрии объектов, слабых текстур, и руко-предметных оккультаций. Наиболее распространенным подходом является двухэтапная модель, включающую 3D-трекинг руки и предмета, а затем много birds-eye-view 3D-воспроизведение. В настоящее время, существующие методы полагаются на детекторы ключевых точек, такие как Structure from Motion (SfM) и руко-ключевая оптимизация, которые страдают от недостатка гибкости, нестеганности и ограниченной общимости. Мы предлагаем HOSt3R, первый технологический подход к руко-предметному трехмерному воспроизведению без использования ключевых точек, который обеспечивает широкую гибкость и улучшенную общимость для различных приложений. ## Метод Чтобы справиться со сложностями трехмерного воспроизведения руки и предмета, мы предлагаем HOSt3R, новый класс методов, основанный на детектировании 3D-трансформаций руки и предмета без использования ключевых точек. Мы используем сильно нейросетевые архитектуры для автоматического выявления руки и предмета в каждом кадре. Далее, мы реализуем много birds-eye-view 3D-воспроизведение, используя последовательность изображений. Мы интегрируем наши модели с общедоступным SHOWMe-benchmark-датасетом, а также нашей собственной моделью тренировки, которая позволяет проверить нашу подходную модель в нескольких сценах. Наше 3D-моделирующее решение выдает гораздо точные и гибкие результаты по сравнению с другими методами. ## Результаты Мы проверили нашу модель на двух открытых датасетах: SHOWMe и HO3D. Мы проводили эксперименты с различными руко-предметными сценами, включая нестандартные объекты и сильно оккультирующие руки и предметы, чтобы проверить гибкость и общимость наших методов. Мы получили результаты, которые превосходят существующие методы в трехмерном воспроизведении рук и предметов, используя только RGB-изображения без дополнительных сенсоров. Наш предложенный подход показал самые высокие показатели точности и обобщаемости по сравнению с другими текущими системами. ## Значимость Наш подход имеет широкие применения в области человеко-роботного взаимодействия, иммерсивных AR/VR-технологий и даже в сфере глубокого обучения. Наш метод освобождает пользователей от требовани

Annotation:

Hand-object 3D reconstruction has become increasingly important for applications in human-robot interaction and immersive AR/VR experiences. A common approach for object-agnostic hand-object reconstruction from RGB sequences involves a two-stage pipeline: hand-object 3D tracking followed by multi-view 3D reconstruction. However, existing methods rely on keypoint detection techniques, such as Structure from Motion (SfM) and hand-keypoint optimization, which struggle with diverse object geometries...

ID: 2508.16465v2 cs.CV, cs.AI, cs.HC, cs.LG, cs.RO

arXiv PDF

📄 Open-Universe Assistance Games

2025-08-23

Авторы:

Rachel Ma, Jingyi Qu, Andreea Bobu, Dylan Hadfield-Menell

## Контекст Открытые миры и сложные задачи, которые стоят перед embodied AI-агентами, требуют инновационных подходов к пониманию и выполнению разнообразных целей и предпочтений пользователей. Традиционные системы часто ограничены набором предопределенных целей или тестовой информацией, что ограничивает их универсальность. Без достаточного обобщения и учета непредсказуемости пользовательских целей, эти системы не могут предоставить надёжные решения в реальной среде. Мы предлагаем Open-Universe Assistance Games (OU-AGs), расширенный фреймворк, который позволяет агенту обучаться и действовать в условиях неограниченного и эволюционирующего пространства целей. ## Метод Мы представляем GOOD (GOals from Open-ended Dialogue), метод, основанный на онлайн-интерфейсе, который обучает агента анализировать и предсказывать цели в виде естественного языка во время интеракции с пользователем. GOOD использует генеративные модели типа Large Language Models (LLM) для симуляции разнообразных целей и интентов, включая сложные. Эти модели обучаются на основе диалоговых сценариев, которые генерируются динамически в процессе общения. Данный подход позволяет создавать богатые представления целей и оценивать их неопределённость без необходимости больших обучающих датасетов. ## Результаты Мы провели эксперименты в двух средах: text-based grocery shopping и text-operated simulated household robotics (AI2Thor). Для имитации пользовательских профилей использовались синтетические данные. GOOD показал существенное превосходство по сравнению с базовым методом, не имеющим явного учёта целей, как подтвердили оценки LLM-моделей и эксперименты с реальными пользователями. Это подтверждает эффективность GOOD в определении разнообразных целей и учёте их неопределённости в реальных условиях. ## Значимость Предложенный подход может быть применён в различных областях, включая робототехнику, виртуальные помощники и системы обслуживания клиентов. Он обеспечивает более естественную интеракцию, уменьшает необходимость в крупных обучающих наборах данных и позволяет агентам действовать в условиях неопределённости. Это значительно повышает универсальность и реалистичность агентов, делая их более эффективными в решении сложных задач в жизненных условиях. ## Выводы Наша работа доказывает, что GOOD является эффективным методом для построения агентов с открытым пространством целей. Мы направимся на дальнейшее оптимизацию и расширение GOOD для поддержки большего разнообразия целей и сценариев в реальных средах, чтобы продвигать широкое применение embodied AI в повседневных задачах.

Annotation:

Embodied AI agents must infer and act in an interpretable way on diverse human goals and preferences that are not predefined. To formalize this setting, we introduce Open-Universe Assistance Games (OU-AGs), a framework where the agent must reason over an unbounded and evolving space of possible goals. In this context, we introduce GOOD (GOals from Open-ended Dialogue), a data-efficient, online method that extracts goals in the form of natural language during an interaction with a human, and infe...

ID: 2508.15119v1 cs.AI, cs.CL, cs.LG, cs.RO

arXiv PDF

📄 The 9th AI City Challenge

2025-08-21

Авторы:

Zheng Tang, Shuo Wang, David C. Anastasiu, Ming-Ching Chang, Anuj Sharma, Quan Kong, Norimasa Kobori, Munkhjargal Gochoo, Ganzorig Batnasan, Munkh-Erdene Otgonbold, Fady Alnajjar, Jun-Wei Hsieh, Tomasz Kornuta, Xiaolong Li, Yilin Zhao, Han Zhang, Subhashree Radhakrishnan, Arihant Jain, Ratnesh Kumar, Vidya N. Murali, Yuxing Wang, Sameer Satish Pusegaonkar, Yizhou Wang, Sujit Biswas, Xunlei Wu, Zhedong Zheng, Pranamesh Chakraborty, Rama Chellappa

#### Контекст Автоматизация процессов в транспортировке, производстве и общественной безопасности требует продвижения реального применения компьютерного зрения и искусственного интеллекта. Наблюдается рост сложности задач, в которых необходимо интегрировать различные сигналы в реальном времени, обеспечивая точность и эффективность. AI City Challenge (AICity), шестой год подряд, призван улучшить технологии в решении этих проблем, предлагая многообразные треки для исследования и конкуренции. #### Метод AI City Challenge состоит из четырех треков, каждый из которых предлагает уникальные вызовы. - **Track 1**: Многоклассовая 3D-многокамерная трекинг, включая людей, роботов и автотранспортную технику. Использовались сложные калибровочные данные и 3D-баундинговые коробки. - **Track 2**: Видео-вопрос-ответ для обеспечения транспортной безопасности, включая многокамерный анализ сцен, расширенный с помощью 3D-меток взгляда. - **Track 3**: Конечно-гранный рассуждения в динамичных складских средах, требующих интерпретации RGB-D данных и решения проблем, комбинирующих визуальную обработку, геометрию и естественный язык. - **Track 4**: Оптимизированное обнаружение предметов на дорогах с использованием камер с фишей, с учетом эффективности и реального времени для развертывания на ребрах. Каждый трек требует уникальных подходов, сочетающих различные исходные данные и алгоритмы для решения сложных реальных проблем. #### Результаты Проведение четвертого AI City Challenge привлекло 245 команд из 15 стран, что показало 17% рост участия по сравнению с прошлым годом. Были публикованы публичные датасеты, набравшие более 30,000 загрузок. Результаты были оценены с помощью частично закрытого тестового набора для обеспечения репродуцируемости и уменьшения вероятности переобучения. - **Track 1**: Лидеры достигли рекордных показателей в 3D-трекинге. - **Track 2**: Было достигнуто улучшение точности видео-вопрос-ответа в области транспортной безопасности. - **Track 3**: Новые алгоритмы позволили повысить точность в рассуждениях на основе 3D-данных в складских условиях. - **Track 4**: Новые подходы к обнаружению предметов на дорогах с фишевыми камерами позволили расширить мощность и реальное время работы. #### Значимость Результаты AICity Challenge имеют широкое применение в области транспорта, производства, общественной безопасности и интеллектуальной аналитики. Улучшенные технологии дополняют существующие системы, увеличивая их эффективность и ровный рост. Их влияние может распространиться на многие области

Annotation:

The ninth AI City Challenge continues to advance real-world applications of computer vision and AI in transportation, industrial automation, and public safety. The 2025 edition featured four tracks and saw a 17% increase in participation, with 245 teams from 15 countries registered on the evaluation server. Public release of challenge datasets led to over 30,000 downloads to date. Track 1 focused on multi-class 3D multi-camera tracking, involving people, humanoids, autonomous mobile robots, and ...

ID: 2508.13564v1 cs.CV, cs.AI, cs.LG, cs.RO

arXiv PDF

📄 SegDAC: Segmentation-Driven Actor-Critic for Visual Reinforcement Learning

2025-08-15

Авторы:

Alexandre Brown, Glen Berseth

## Контекст Visual reinforcement learning (RL) представляет собой сложную задачу, требующую эффективного уровня обучения как с точки зрения восприятия, так и с точки зрения принятия решений. Проблема заключается в том, что высокоразмерные входные данные, такие как изображения, требуют сложной обработки, а ненормализованные награды создают дополнительные сложности. До сих пор, несмотря на развитие моделей в области визуального распознавания, интеграция этих моделей в RL для улучшения общей точности и эффективности выбора остается неочевидной задачей. Мотивация для создания SegDAC (Segmentation-Driven Actor-Critic) заключается в том, чтобы решить эти проблемы, обеспечив улучшенную обработку визуальных данных и усиленный подход к обучению. ## Метод SegDAC основывается на интеграции двух моделей: Segment Anything (SAM) и YOLO-World. SAM используется для декомпозиции изображений на отдельные сегменты, которые затем становятся объектами действий в RL. YOLO-World позволяет трансформировать эти сегменты в семантически значимые элементы с помощью текстовых признаков. Для управления таким динамическим количеством сегментов SegDAC вводит новую архитектуру, основанную на трансформерной структуре. Эта архитектура адаптивна и позволяет RL-агенту динамически выбирать, какие сегменты должны быть особенно внимательно обработаны. Несмотря на это, SegDAC не требует каких-либо размеченных данных, чем упрощает процесс обучения и увеличивает применимость в реальных сценариях. ## Результаты Опытные исследования проводились на бенчмарке ManiSkill3, который представляет собой сложный набор задач манипуляции, включая разнообразные визуальные помехи. В тяжелой версии этого бенчмарка, SegDAC демонстрирует двойной прирост эффективности в обработке визуальных данных по сравнению с предыдущими методами. Также, SegDAC показал примерно одинаковую эффективность в обучении (sample efficiency) по сравнению с другими методами по всем задачам, протестированным в этом эксперименте. Эти результаты подтверждают улучшенную обработку визуальных сигналов и эффективность SegDAC в обучении визуальных RL-систем. ## Значимость SegDAC может быть применен в области визуальных RL для различных задач, таких как манипуляция, игровые сценарии и даже визуальное управление роботами. Основные преимущества SegDAC заключаются в улучшенной общей точности, более эффективном использовании данных и уменьшении потребности в разметке данных. Это также открывает путь к будущим исследованиям в области визуальных RL и взаимодействия роботов с визуальным миром. ## Выводы SegDAC достигает существенных улучшений в области визуального RL, используя дина

Annotation:

Visual reinforcement learning (RL) is challenging due to the need to learn both perception and actions from high-dimensional inputs and noisy rewards. Although large perception models exist, integrating them effectively into RL for visual generalization and improved sample efficiency remains unclear. We propose SegDAC, a Segmentation-Driven Actor-Critic method. SegDAC uses Segment Anything (SAM) for object-centric decomposition and YOLO-World to ground segments semantically via text prompts. It ...

ID: 2508.09325v1 cs.CV, cs.AI, cs.LG, cs.RO

arXiv PDF

📄 TRACE: Learning 3D Gaussian Physical Dynamics from Multi-view Videos

2025-08-15

Авторы:

Jinxi Li, Ziyang Song, Bo Yang

#### Контекст Объяснение целей исследований в области 3D-моделирования динамических сцен из видео при обработке изменений вызвано сложностью извлечения геометрии, видимости и физических параметров только из видео, без меток. Это ставит перед наукой цель развития моделей, не требующих меток и оперирующих только видеоданными. Моделирование сложных динамических сцен в 3D-пространстве важно для приложений в машинном зрении, виртуальной реальности и других технологиях. Недостаток существующих подходов в том, что они либо не могут охватить сложные физические модели, либо требуют дополнительных меток, что ограничивает их применение. #### Метод TRACE — это новая фреймворк, которая моделирует физические свойства динамических сцен с помощью физически обоснованных потерь и моделирования каждого трехмерного пикселя как отдельного частица со своими геометрическими параметрами (размер, ориентация). Основной инновацией является то, что TRACE динамически оценивает параметры трансляции и поворота для каждой частицы, что позволяет описывать ее движение в течение времени. Такой подход позволяет извлекать изображение и физическую информацию без дополнительных меток, так как сама модель физических параметров лежит в основе расчетов. #### Результаты TRACE проверена на трех существующих динамических датасетах, а также на новом синтетическом датасете, разработанном для проверки сложности. Использовались меры качества, такие как PSNR и SSIM, для оценки качества экстраполяции будущих кадров. Оказалось, что TRACE показывает наилучший результат в сравнении с другими моделями в задаче прогнозирования физических движений. Также было продемонстрировано, как посредством кластеризации физических параметров можно выделять различные объекты и их части в сцене. #### Значимость TRACE может применяться в различных областях технологий, включая системы распознавания движения, виртуальные и масштабируемые реалистичные симуляции, а также виртуальную реальность. Она предлагает высокую точность воспроизведения динамических сцен и позволяет извлекать физические параметры без дополнительных меток. Это делает ее привлекательной для приложений, требующих точной модели физического поведения объектов. #### Выводы TRACE демонстрирует мощь физически обоснованных подходов в обучении моделей движения 3D-сцен. Она открывает новые возможности для точного моделирования физики движения в различных приложениях. Будущие исследования могут сфокусироваться на улучшении точности моделирования и расширении ее применения в реальных сценах.

Annotation:

In this paper, we aim to model 3D scene geometry, appearance, and physical information just from dynamic multi-view videos in the absence of any human labels. By leveraging physics-informed losses as soft constraints or integrating simple physics models into neural nets, existing works often fail to learn complex motion physics, or doing so requires additional labels such as object types or masks. We propose a new framework named TRACE to model the motion physics of complex dynamic 3D scenes. Th...

ID: 2508.09811v1 cs.CV, cs.AI, cs.CE, cs.LG, cs.RO

arXiv PDF

📄 RayletDF: Raylet Distance Fields for Generalizable 3D Surface Reconstruction from Point Clouds or Gaussians

2025-08-15

Авторы:

Shenxing Wei, Jinxi Li, Yafei Yang, Siyuan Zhou, Bo Yang

#### Контекст Область исследования 3D-сурфейс-реконструкции из точечных множеств или 3D-Гауссиан (т.е., приближенных нормальных распределений) является актуальной для многих прикладных задач, таких как виртуальная реальность, робототехника, 3D-дизайн и инспекция. Несмотря на успех методов, основанных на координатах (Coordinate-Based Methods, CBM), они часто сталкиваются с высокими затратами ресурсов при рендеринге точных эксплорных сурфейсов. Такие методы требуют многократного обращения к нейросетевым моделям для каждого пикселя, что приводит к высокому времени вычислений и неэффективности. Тем самым, существует необходимость в разработке более эффективных, гибких и производительных алгоритмов для решения этой задачи. #### Метод Метод RayletDF предлагает инновационный подход к решению проблемы 3D-сурфейс-реконструкции. Основная идея заключается в использовании "raylet distance field" (RDF), который рассчитывает расстояние до ближайшего сурфейса для каждого исследоваемого луча (raylet). Этот подход позволяет избежать непосредственного вычисления координат сурфейсной точки и, следовательно, снижает компьютерные затраты. Архитектура RayletDF состоит из трех модулей: 1. **Raylet Feature Extractor** — извлекает тонкие локальные геометрические признаки из запросов лучей. 2. **Raylet Distance Field Predictor** — прогнозирует расстояния до сурфейса по этим признакам. 3. **Multi-Raylet Blender** — комбинирует несколько прогнозов для построения точных сурфейсных точек. Эта архитектура обеспечивает точные и производительные реконструкции сурфейсов, с минимальными вычислительными затратами. #### Результаты Работа была проверена на нескольких широко известных реальных данных, в том числе в таких областях, как 3D-сурфейс-реконструкция и виртуальная реальность. Использовались различные точечные множества и 3D-Гауссианы, полученные с помощью 3DGS (3D Gaussian Sampling) из RGB-изображений. Полученные результаты сравнивались с другими современными методами, показав существенное преимущество RayletDF в скорости и точности реконструкции сурфейсов. Особенно выдающимся был его результат в области общей гибкости: RayletDF способен выполнить рендеринг 3D-сурфейсов в одном проходе (single-forward-pass) даже на неизвестных данных. #### Значимость Полученный подход имеет широкие приложения в сферах, требующих эффективной и точной 3D-реконструкции, таких как виртуальная реальность, робототехника, 3D-анализ и отображение. Он отличается высокой скоростью исполнения и гибкостью при работе с различными типами данных. В отличие от методов CBM, RayletDF не требует многократных вызовов нейросети, что де

Annotation:

In this paper, we present a generalizable method for 3D surface reconstruction from raw point clouds or pre-estimated 3D Gaussians by 3DGS from RGB images. Unlike existing coordinate-based methods which are often computationally intensive when rendering explicit surfaces, our proposed method, named RayletDF, introduces a new technique called raylet distance field, which aims to directly predict surface points from query rays. Our pipeline consists of three key modules: a raylet feature extractor...

ID: 2508.09830v1 cs.CV, cs.AI, cs.GR, cs.LG, cs.RO

arXiv PDF

📄 Towards Transparent Ethical AI: A Roadmap for Trustworthy Robotic Systems

2025-08-12

Авторы:

Ahmad Farooq, Kamran Iqbal

## Контекст Современные искусственные интеллекты (ИИ) и роботизированные системы все более влияют на различные сферы человеческой деятельности, от здравоохранения до промышленности и домашних приложений. Однако эти системы часто остаются непрозрачными, что создает затруднения в проверке их этичности и безопасности. Несоблюдение этичных принципов может привести к непредвиденным последствиям, включая ущерб человеческим правам, ограничения в доступе к технологиям и ухудшение отношения к новым технологиям. Эти проблемы мотивируют развитие подходов, которые обеспечат прозрачность в этических роботизированных системах. ## Метод Для решения проблемы непрозрачности в этических роботизированных системах предлагается использовать специализированные архитектуры, включающие инструменты для объяснения решений, такие как explainable AI (XAI), и стандартизованные метрики для оценки этического поведения систем. Кроме того, рассматриваются технические проблемы, такие как вычислительная сложность, ненадежность данных и взаимодействие с пользователями. Методология включает в себя разработку экспериментальных моделей для оценки прозрачности, используя методы глубокого обучения и интерактивных систем, чтобы обеспечить эффективное взаимодействие с пользователями. ## Результаты Испытания проводились на реальных данных, включая сценарии с ботами-роботами, интеллектуальными диагностическими системами и роботами-обслуживающими людей. Оценивались факторы, такие как удобочитаемость выводов систем, доверие пользователей и время отклика на запросы. Результаты показали, что использование XAI-техник и стандартизованных метрик улучшает прозрачность и доверие к системам. Доля пользователей, которые выразили удовлетворение относительно пояснений, увеличилась с 60% до 85% при применении этих подходов. ## Значимость Применение прозрачных этических роботизированных систем может вносить значительный вклад в сферу здравоохранения, производства, транспорта и домашних приложений. Эти системы обеспечат более высокую уверенность пользователей, безопасность принятия решений и соответствие регулирующим требованиям. Также они могут уменьшить влияние человеческого фактора, обеспечив автоматические проверки и устранения ошибок. Это может привести к улучшению отношения общества к ИИ, повышению доверия к новым технологиям и построению более устойчивых и этичных роботизированных систем. ## Выводы Прозрачность является ключевым компонентом этических роботизированных систем. Она обеспечивает не только большую прозрачность решений, но и возможность для научного

Annotation:

As artificial intelligence (AI) and robotics increasingly permeate society, ensuring the ethical behavior of these systems has become paramount. This paper contends that transparency in AI decision-making processes is fundamental to developing trustworthy and ethically aligned robotic systems. We explore how transparency facilitates accountability, enables informed consent, and supports the debugging of ethical algorithms. The paper outlines technical, ethical, and practical challenges in implem...

ID: 2508.05846v1 cs.CY, cs.AI, cs.HC, cs.LG, cs.RO, 68T01, 68T40, K.7.4; K.4.1; I.2.9; H.1.2

arXiv PDF

1
2
8
9
10
11

Показано 91 - 100 из 101 записей