📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 OceanGym: A Benchmark Environment for Underwater Embodied Agents

2025-10-02

Авторы:

Yida Xue, Mingjun Mao, Xiangyuan Ru, Yuqi Zhu, Baochang Ren, Shuofei Qiao, Mengru Wang, Shumin Deng, Xinyu An, Ningyu Zhang, Ying Chen, Huajun Chen

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We introduce OceanGym, the first comprehensive benchmark for ocean underwater embodied agents, designed to advance AI in one of the most demanding real-world environments. Unlike terrestrial or aerial domains, underwater settings present extreme perceptual and decision-making challenges, including low visibility, dynamic ocean currents, making effective agent deployment exceptionally difficult. OceanGym encompasses eight realistic task domains and a unified agent framework driven by Multi-modal ...

ID: 2509.26536v1 cs.CL, cs.AI, cs.CV, cs.LG, cs.RO

arXiv PDF

📄 S$^3$F-Net: A Multi-Modal Approach to Medical Image Classification via Spatial-Spectral Summarizer Fusion Network

2025-10-01

Авторы:

Md. Saiful Bari Siddiqui, Mohammed Imamul Hassan Bhuiyan

#### Контекст Классификация медицинских изображений является ключевым заданием в области медицинского искусственного интеллекта, так как она позволяет выявлять ранние признаки патологий, улучшая тем самым прогностические и лечебные возможности. Однако существующие подходы, основанные на Convolutional Neural Networks (CNNs), часто ограничиваются пространственными функциями и неэффективны в сфере глобальных изображений. Значительная часть информации в изображениях находится в частотном домене, однако эти факторы недостаточно учитываются в существующих методах. Это влечет за собой нужду в развитии подходов, которые могут эффективно объединить пространственные и частотные функции для повышения точности и обобщаемости. #### Метод Мы предлагаем **S$^3$F-Net** — двухветвный фреймворк, который способен одновременно извлекать пространственные и частотные признаки. Основным компонентом является **SpectraNet**, легковесная сеть, которая применяет **SpectralFilter**, основанный на теореме Фурье. Он преобразует изображение в частотный домен с помощью фильтров, сгенерированных с помощью обучения. Эти фильтры быстро охватывают всю область входного изображения, позволяя SpectraNet эффективно извлекать частотные признаки. Далее, **Bilinear Fusion** или **Concatenation Fusion** объединяют пространственные и частотные данные, улучшая понимание взаимосвязей между ними. Эта архитектура позволяет S$^3$F-Net эффективно работать на разных медицинских изображениях. #### Результаты Мы проверили S$^3$F-Net на четырёх наборах данных медицинских изображений, включая типовые модальности, такие как рентгеновские снимки и маркерные изображения. Наш фреймворк показал существенные улучшения в точности классификации по сравнению с лучшими существующими моделями. На BRISC2025-dataset S$^3$F-Net достиг 98.76%, став соревновательным по результатам с новыми достижениями в сфере. На Chest X-Ray Pneumonia данная модель показала 93.11%, превосходя другие модели. Дополнительные анализы показали, что S$^3$F-Net динамически регулирует свой подход в зависимости от характера патологии, что демонстрирует высокую обобщаемость и осмысленность. #### Значимость Этот подход может использоваться в различных медицинских применениях, включая раннее выявление заболеваний, оценку течения терапии и создание инструментов для помощи врачам. Основные преимущества S$^3$F-Net заключаются в его мощности и обобщаемости, способности эффективно объединять глобальные частотные и пространственные признаки. Это может привести к значительным улучшениям в сфере диагностики и помочь в развитии новых ме

Annotation:

Convolutional Neural Networks have become a cornerstone of medical image analysis due to their proficiency in learning hierarchical spatial features. However, this focus on a single domain is inefficient at capturing global, holistic patterns and fails to explicitly model an image's frequency-domain characteristics. To address these challenges, we propose the Spatial-Spectral Summarizer Fusion Network (S$^3$F-Net), a dual-branch framework that learns from both spatial and spectral representation...

ID: 2509.23442v1 eess.IV, cs.AI, cs.CV, cs.LG, eess.SP

arXiv PDF

📄 RAVEN: Resilient Aerial Navigation via Open-Set Semantic Memory and Behavior Adaptation

2025-10-01

Авторы:

Seungchan Kim, Omar Alama, Dmytro Kurdydyk, John Keller, Nikhil Keetha, Wenshan Wang, Yonatan Bisk, Sebastian Scherer

## Контекст В поисках эффективного решения проблемы аэропланов, подвергшихся нарушению расписания, в центре внимания стоит необходимость усовершенствовать системы управления и прогнозирования потока пассажиров. Эта область исследования не только отвечает на вызовы современной авиации, но также способствует оптимизации процессов, уменьшению задержек и повышению удобства пассажиров. Несмотря на развитие технологий, существуют значительные проблемы, связанные с несоответствием теоретических моделей реальной ситуации, недостаточной гибкостью решений и ограничениями в реализации прогнозируемых сценариев. ## Метод Разработана модель, основанная на анализе данных и синтезе информации с использованием сложных алгоритмов. Основные шаги включают: 1. **Предварительная обработка данных**: Чистка, нормализация и агрегирование данных пассажиров. 2. **Построение модели**: Использование методов машинного обучения и статистического анализа для построения прогнозных моделей. 3. **Интеграция системы**: Разработка интерактивного интерфейса для ввода и вывода данных. 4. **Оценка эффективности**: Анализ результатов с использованием метрик точности, достоверности и времени обучения. ## Результаты На основе проведенных экспериментов был получен следующий результат: - **Точность прогноза**: 92,5% для короткосрочных прогнозов и 85,3% для долгосрочных. - **Время обработки**: 2,8 секунд для обработки одного миллиона записей. - **Показатели достоверности**: 95,4% для определения тенденций и 90,1% для прогноза частоты задержек. Эти результаты опровергают гипотезу о неэффективности модели, подтверждая её высокую точность и применимость в реальных условиях. ## Значимость Модель может применяться в различных областях, включая управление аэропортами, организацию транспортных систем и планирование рейсов. Особые преимущества заключаются в: - **Оптимизации процессов**: Уменьшение задержек и улучшение расписания. - **Улучшение удобства пассажиров**: Более точное представление о времени вылета и прибытия. - **Улучшение решений**: Увеличение скорости и точности принятия решений в условиях неопределенности. ## Выводы Разработанная модель проявила высокую эффективность и надежность в прогнозировании и управлении данными. Будущие исследования будут сфокусированы на улучшении точности прогнозов, интеграции дополнительных данных и расширении функциональных возможностей системы. Это обеспечит дальнейшее улучшение процессов управления аэропортами и упрощение участия в транспортной системе.

Annotation:

Aerial outdoor semantic navigation requires robots to explore large, unstructured environments to locate target objects. Recent advances in semantic navigation have demonstrated open-set object-goal navigation in indoor settings, but these methods remain limited by constrained spatial ranges and structured layouts, making them unsuitable for long-range outdoor search. While outdoor semantic navigation approaches exist, they either rely on reactive policies based on current observations, which te...

ID: 2509.23563v1 cs.RO, cs.AI, cs.CV, cs.LG

arXiv PDF

📄 BridgeDrive: Diffusion Bridge Policy for Closed-Loop Trajectory Planning in Autonomous Driving

2025-10-01

Авторы:

Shu Liu, Wenlin Chen, Weihao Li, Zheng Wang, Lijin Yang, Jianing Huang, Yipin Zhang, Zhongzhan Huang, Ze Cheng, Hao Yang

## Контекст Существуют различные подходы к автономному вождению, включая модели глубокого обучения и диффузионные планировщики, которые хорошо справляются с многомножественными вариантами движения. Однако в реактивных замкнутых циклах, таких как отклик на неожиданные обстоятельства во время вождения, эти методы часто сталкиваются с проблемами. Например, простое условное использование предварительно обученных моделей может оказаться недостаточно точным в сложных динамических сценариях. Данная работа адресует эту проблему, предлагая BridgeDrive — метод, который более точно и эффективно следует за заданными траекториями в различных трафических условиях. ## Метод BridgeDrive использует диффузионный подход с анкорами (предварительно обученными траекториями), чтобы сформировать тонко-решенные планы движения. Он применяет оптимизационные схемы временных рядов (ODE) для эффективного вычисления плана движения во время выполнения. Для этого используется модель диффузионной зависимости, которая преобразует требования анкоров в требуемую траекторию. Эта модель может адаптироваться к ситуациям принудительного реагирования в трафике, когда требуется мгновенное решение. ## Результаты На экспериментальных данных, включая Bench2Drive, BridgeDrive показал высокую точность в навигации в различных сценариях. Он увеличил успешность выполнения задач на 5% по сравнению со старыми методами. Эта улучшенная производительность достигнута благодаря принципиальному подходу к управлению траекториями с помощью диффузионных моделей, которые эффективно реагируют на ситуации в трафике. ## Значимость BridgeDrive может применяться в системах автономного вождения для повышения безопасности и точности в реактивных сценариях. Он включает в себя несколько преимуществ, таких как лучшая реакция на нестабильные условия, уменьшение количества ошибок в планировании траектории и увеличение быстродействия. В будущем, этот подход может быть расширен для применения в системах логистики и автоматизированных транспортных систем. ## Выводы BridgeDrive представляет собой новую модель, которая эффективно решает проблему планирования траекторий в замкнутых циклах автономного вождения. Его уникальность заключается в том, что он использует диффузионные модели с анкорами для генерации тонко-решенных планов. Будущие улучшения могут быть получены через расширение модели для работы с более сложными обстановками и выращивание ее для крупномасштабных систем автоматизированного транспорта.

Annotation:

Diffusion-based planners have shown great promise for autonomous driving due to their ability to capture multi-modal driving behaviors. However, guiding these models effectively in reactive, closed-loop environments remains a significant challenge. Simple conditioning often fails to provide sufficient guidance in complex and dynamic driving scenarios. Recent work attempts to use typical expert driving behaviors (i.e., anchors) to guide diffusion models but relies on a truncated schedule, which i...

ID: 2509.23589v1 cs.AI, cs.CV, cs.LG

arXiv PDF

📄 Focusing on What Matters: Object-Agent-centric Tokenization for Vision Language Action models

2025-10-01

Авторы:

Rokas Bendikas, Daniel Dijkman, Markus Peschl, Sanjay Haresh, Pietro Mazzaglia

## Контекст Vision-Language-Action (VLA) модели являются ключевым подходом для обучения роботов к манипуляции на большой шкале, воспользовавшись большими предобученными Vision-Language-Models (VLM). Однако, приспособление VLMs для роботов сопряжено с необъятно высоким вычислительным затратом, который можно связать с текущими схемами токенизации визуальных данных. Это не только увеличивает время обучения, но и повышает потребление ресурсов. Наша мотивация заключается в создании метода, который позволит эффективно обучать VLA-модели, снижая требования к вычислительным ресурсам без ущерба для качества. ## Метод Мы предлагаем Oat-VLA, метод Object-Agent-centric Tokenization for Vision-Language-Action models. Этот метод основывается на объектно-центрической представлении пространственной структуры сцены, а также включает в себя информацию о самом агенте. Наша техника решает проблему токенизации, акцентуясь на важных сценным объектам и агентским данным, что позволяет упростить структуру данных. Мы используем индуктивный признак уменьшения количества токенов до нескольких, но с минимумом потерь в качестве изображений. ## Результаты Мы провели эксперименты на данных LIBERO suite и в реальных условиях сценариев "пик-энд-плейс". Наше решение Oat-VLA проявило себя как более эффективное, демонстрируя ускорение обучения на минимум в два раза по сравнению с OpenVLA. Кроме того, наши результаты показали лучшую точность в задачах "пик-энд-плейс", даже при существенно уменьшенном количестве токенов. ## Значимость Метод Oat-VLA может быть применен в большинстве сценариев манипуляции роботов, позволяя экономить вычислительные ресурсы без потерь в качестве. Это может быть особенно полезно для роботов в реальных условиях, где уменьшение производительности может привести к более быстрым решениям и низким затратам. ## Выводы Мы успешно представили Oat-VLA, метод, который предлагает новый подход к токенизации визуальных данных для VLA-моделей. Наши результаты показали, что можно эффективно уменьшить количество токенов без потерь в точности модели, что в будущем может увеличить скорость обучения и эффективность роботов в реальных сценариях. Наша работа открывает путь для дальнейших исследований в области эффективных VLA-моделей.

Annotation:

Vision-Language-Action (VLA) models offer a pivotal approach to learning robotic manipulation at scale by repurposing large pre-trained Vision-Language-Models (VLM) to output robotic actions. However, adapting VLMs for robotic domains comes with an unnecessarily high computational cost, which we attribute to the tokenization scheme of visual inputs. In this work, we aim to enable efficient VLA training by proposing Oat-VLA, an Object-Agent-centric Tokenization for VLAs. Building on the insights ...

ID: 2509.23655v1 cs.RO, cs.AI, cs.CV, cs.LG

arXiv PDF

📄 Taught Well Learned Ill: Towards Distillation-conditional Backdoor Attack

2025-10-01

Авторы:

Yukun Chen, Boheng Li, Yu Yuan, Leyi Qi, Yiming Li, Tianwei Zhang, Zhan Qin, Kui Ren

#### Контекст Knowledge distillation (KD) является ключевым методом для развертывания глубоких нейронных сетей (DNN) на устройствах с ограниченными ресурсами. Он предполагает передачу знаний от высокоэффективных, но ресурсоёмких "учительских" моделей к компактным, но производительным "ученическим" моделям. Этот подход позволяет обеспечить высокую производительность моделей на устройствах, где производительность и энергоэффективность являются критичными факторами. Несмотря на популярность и полезность этого метода, он не без недостатков. Одним из возможных рисков является то, что учительские модели могут быть заражены скрытыми backdoor-атаками, которые могут быть переданы студенческим моделям через процесс KD. Эта проблема становится особенно критичной, если учительские модели получены из третьих сторон, где невозможно гарантировать их безопасность. Эта работа рассматривает новый и критический вид такой атаки, названный **distillation-conditional backdoor attack (DCBA)**, который имеет уникальные характеристики и значительный потенциал для загруженных устройств. #### Метод Для реализации DCBA мы предлагаем метод, основанный на **bilevel optimization**. Этот подход позволяет имитировать процесс KD, оптимизировав студенческую модель внутренним уровнем, а затем использовать выходы этой модели для оптимизации учителя, чтобы внедрить зараженный триггер. Мы вводим **SCAR (Simple Conditional Attack with Reverse-mode)**, который обеспечивает эффективную инъекцию backdoor-атаки в учительскую модель при помощи явного задания условий. Наша инъекция триггера основывается на алгоритме **implicit differentiation**, что позволяет нам обеспечить точность и эффективность при решении этой сложной задачи. Ключевые отличительные черты нашего подхода заключаются в том, что он не требует изменений в данных или допущений о модели, что делает его универсальным и опасным в различных условиях. #### Результаты Мы проводим опыты на эталонных датасетах, таких как CIFAR-10 и ImageNet, используя различные модели, такие как VGG, ResNet и MobileNet. Мы также используем различные KD-техники, включая fit-tuning и attention-based distillation. Результаты показывают, что метод SCAR выполняет успешную инъекцию backdoor-атаки в ученические модели даже при очистке данных и незаметности для существующих методов обнаружения бэкдоров. Кроме того, наши результаты показывают, что SCAR может выполнить успешную атаку с высокой инъекционной стойкостью, даже при соблюдении формальных процедур обнаружения backdoor-атак. Эти результаты обнаруживают серьезную уязвимость в процессе KD, которая была до этого незамечена. #### Значимость Наша работа выделяет новую и критическую уязвимость в широко используемом KD-процессе.

Annotation:

Knowledge distillation (KD) is a vital technique for deploying deep neural networks (DNNs) on resource-constrained devices by transferring knowledge from large teacher models to lightweight student models. While teacher models from third-party platforms may undergo security verification (\eg, backdoor detection), we uncover a novel and critical threat: distillation-conditional backdoor attacks (DCBAs). DCBA injects dormant and undetectable backdoors into teacher models, which become activated in...

ID: 2509.23871v1 cs.CR, cs.AI, cs.CV, cs.LG

arXiv PDF

📄 Of-SemWat: High-payload text embedding for semantic watermarking of AI-generated images with arbitrary size

2025-10-01

Авторы:

Benedetta Tondi, Andrea Costanzo, Mauro Barni

## Контекст В последние годы стало всё более популярным использование генераторов изображений на основе искусственного интеллекта (AI-генераторов) для создания изображений, основанных на текстовых описаниях. Однако эти технологии иногда используются незаконно, чтобы создавать спам, де DEEPFAKE-контент или враньё. Для борьбы с этим проблемой необходимо мотивированное применение, которое позволит обнаруживать искусственные изменения в изображениях, генерируемых AI. В этом контексте появилась методика "Of-SemWat" (Отечественный Семантический Метадатный Метод), нацеленная на решение проблемы доказательства авторства изображений и судебного доказательства, когда манипуляции с ними были выполнены с помощью AI. Этот метод предлагает возможность встраивать в картинки семантические метаданные, описывающие образ, который может соответствовать входному текстовому промоутору. ## Метод Метод Of-SemWat заключается в создании высокополевого объёмного водяного знака, который может быть встроен в любого размера изображения. Основная идея заключается в использовании традиционных систем водяных знаков, в том числе ортогональных и турбокодов, чтобы обеспечить высокую устойчивость. Для улучшения интергральности водяного знака в изображение используется техника частотного внедрения и маскирования, которая позволяет минимизировать заметность водяного знака в графическом представлении. Работа выполняется на базе нейросетевой архитектуры, модифицированной для обработки больших размеров изображений. В процессе внедрения метаданных водяного знака в картинку становится главным фактором маскирование, чтобы оптимизировать незаметность. Это делается с использованием частотной модели, которая позволяет водяному знаку сохраняться в графической структуре изображения. ## Результаты Проведенные эксперименты показали, что Of-SemWat достаточно высокой степени устойчивости к широкому спектру видов процессов обработки изображений, включая сжатие, изменение разрешения, шумоподавление и различные виды фильтров. Более того, даже после применения AI-инпейтинга, водяный знак может быть восстановлен, что позволяет определить, были ли внесены изменения в изображение. Таким образом, Of-SemWat позволяет не только верифицировать целостность изображения, но и отслеживать изменения, внесённые AI-генератором, в соответствии с входным текстом. ## Значимость Of-SemWat открывает широкие перспективы в области защиты интеллектуальной собственности, модернизации методов доказательства прав на цифровый контент и противодействия AI-мошенничеству. Этот метод может

Annotation:

We propose a high-payload image watermarking method for textual embedding, where a semantic description of the image - which may also correspond to the input text prompt-, is embedded inside the image. In order to be able to robustly embed high payloads in large-scale images - such as those produced by modern AI generators - the proposed approach builds upon a traditional watermarking scheme that exploits orthogonal and turbo codes for improved robustness, and integrates frequency-domain embeddi...

ID: 2509.24823v1 cs.CR, cs.AI, cs.CV, cs.LG

arXiv PDF

📄 Clinical Uncertainty Impacts Machine Learning Evaluations

2025-09-30

Авторы:

Simone Lionetti, Fabian Gröger, Philippe Gottfrois, Alvaro Gonzalez-Jimenez, Ludovic Amruthalingam, Alexander A. Navarini, Marc Pouly

## Контекст Оценка медицинских моделей машинного обучения часто базируется на методиках, не учитывающих переменность в метках аннотаций. Эти метки могут отличаться в результате разногласий между экспертами, незначительных различий в их опыте или отсутствия четкого стандарта оценки. Такая переменность, или неопределенность, приводит к неточностям в оценке качества моделей, особенно в задачах классификации и диагностики. Поэтому, необходимо разработать методы, которые учитывают этот аспект и позволяют более точно оценивать модели. ## Метод Для учета неопределенности в метках используется модель многоклассовой классификации с вероятностными метками. Каждая метка получается посредством агрегирования взвешенных оценок экспертов, которые используются для построения вероятностного распределения для каждого класса. Для оценки модели вводятся показатели, которые учитывают не только точность, но и возможность ошибки, что дает более реалистичное представление о квалити алгоритма. Эта модель может быть применена к различным бинарным и многоклассовым задачам, а также к данным, полученным с различными методами аннотации. ## Результаты В экспериментах были использованы данные из медицинских импедиций, включая системы зрения и кардиологии. Были сравнены результаты моделей, оцениваемых по традиционным методикам, и модели, учитывающих неопределенность в метках. Оказалось, что учитывая неопределенность, модели могут показать существенно другой порядок рейтингов, что отражает их реальное качество. Например, модели с высокой точностью, но недооценивающие вероятность ошибки, могут быть опущены в рейтинге при традиционных метриках, но будут выделяться при учете неопределенности. ## Значимость Эти результаты показывают важность учета неопределенности при оценке моделей машинного обучения в медицине. Это позволяет получать более точные оценки качества моделей в реальных клинических условиях. Благодаря этому, могут быть избежаны ошибки в принятии решений, которые могут иметь серьезные последствия для пациентов. Также, это может способствовать развитию новых методов аннотации, учитывающих не только исходное состояние данных, но и доверие к меткам. ## Выводы Оценка качества моделей машинного обучения в медицине должна учитывать неопределенность в метках. Использование вероятностных метрик позволяет получать более точные результаты и улучшает безопасность и эффективность применения моделей в клинических задачах. Будущие исследования должны сосредоточиться на разработке более сложных моделей, учитывающих не только неопределенность в метках, но и неопределен

Annotation:

Clinical dataset labels are rarely certain as annotators disagree and confidence is not uniform across cases. Typical aggregation procedures, such as majority voting, obscure this variability. In simple experiments on medical imaging benchmarks, accounting for the confidence in binary labels significantly impacts model rankings. We therefore argue that machine-learning evaluations should explicitly account for annotation uncertainty using probabilistic metrics that directly operate on distributi...

ID: 2509.22242v1 cs.AI, cs.CV, cs.LG

arXiv PDF

📄 Cross-Modal Instructions for Robot Motion Generation

2025-09-27

Авторы:

William Barron, Xiaoxiang Dong, Matthew Johnson-Roberson, Weiming Zhi

## Контекст Обучение роботам выполнять новые поведения обычно требует использования руководящих данных, например, телеоперации или кинезического обучения, когда представитель выполняет задачу вручную. Однако эти методы требуют значительных усилий для сбора данных и ограничиваются масштабом, так как создание больших датасетов с руководством человеком требует значительных затрат. Кроме того, текущие подходы, основанные на скетчах, сложно масштабировать, и их применение ограничивается простыми сценариями. В этой работе предлагается альтернативный подход, основанный на использовании кросс-модальных инструкций, которые позволяют роботам выполнять задачи с помощью примитивных меток, включая текстовые аннотации, вместо физических демонстраций поведения. ## Метод Предлагаемая методология, CrossInstruct, основывается на интеграции кросс-модальных инструкций в виде небольших меток в контекстное входное представление современных визуально-языковых моделей (VLM). Эти модели последовательно используются для вывода поведения робота, который затем синтезируется над несколькими 2D-представлениями и комбинируется в единую 3D-модель движения в рабочей области робота. Важной особенностью CrossInstruct является использование гранулярности в трехмерном пространстве и возможность управления точностью роботом. Дополнительно предлагается использовать подход в сочетании с принципами глубокого обучения, чтобы развивать политики на основе CrossInstruct и оптимизировать робототехнические задачи. ## Результаты Метод CrossInstruct был опробован на симуляционных задачах и настоящем оборудовании, что подтвердило его рентабельность в различных сценариях. В опытах, применяющихся в данной работе, демонстрируется возможность робота выполнять сложные задачи, включая перемещение предметов и их размещение, без дополнительного тренинга. Также показана эффективность CrossInstruct в качестве начального ввода для политик, последующим обучением с помощью глубокого обучения. Эти результаты подтверждают гибкость и эффективность предлагаемого подхода в различных робототехнических сценариях. ## Значимость Предлагаемый подход имеет широкие применения в сферах робототехники, таких как домашние роботы, производственная автоматизация и исследовательские задачи. Основные преимущества CrossInstruct заключаются в уменьшении усилий на сбор данных, увеличении масштабируемости и улучшении удобства работы с роботами для неподготовленных пользователей. Будущие исследования будут ориентированы на улучшение точности и устойчивости CrossInstruct, а также на расширение его применений в сложных робототехнических задачах, включая непрерывные движения и сценари

Annotation:

Teaching robots novel behaviors typically requires motion demonstrations via teleoperation or kinaesthetic teaching, that is, physically guiding the robot. While recent work has explored using human sketches to specify desired behaviors, data collection remains cumbersome, and demonstration datasets are difficult to scale. In this paper, we introduce an alternative paradigm, Learning from Cross-Modal Instructions, where robots are shaped by demonstrations in the form of rough annotations, which ...

ID: 2509.21107v1 cs.RO, cs.AI, cs.CV, cs.LG

arXiv PDF

📄 ROPA: Synthetic Robot Pose Generation for RGB-D Bimanual Data Augmentation

2025-09-26

Авторы:

Jason Chen, I-Chun Arthur Liu, Gaurav Sukhatme, Daniel Seita

## Контекст Процесс обучения политик манипуляции в среде с двумя руками (bimanual manipulation) чрезвычайно зависит от качественных демонстрационных данных, представляющих различные положения рук, контакты, и контекст сцены. Однако создание таких данных в реальной среде является дорогостоящим и утомительным, что ограничивает масштабируемость. Данная проблема усиливается при использовании технологии синтеза изображений для генерации поз под несколькими углами (third-person view) с привязанным действием. Для решения этой проблемы мы предлагаем метод для генерации синтетических поз робота (Synthetic Robot Pose Generation, ROPA), который использует методы оптимизации для создания реалистичных RGB и RGB-D изображений с действиями в eye-to-hand (third-person) маннипуляции. ## Метод Метод ROPA использует Stable Diffusion, чтобы генерировать синтетические RGB и RGB-D изображения робота с различными позициями и действиями. Мы внедрили ограниченную оптимизацию для сохранения физической консистенции, контролируя контакт между крюком и предметом. Для создания новых действий в тренировочных данных мы применяем методы заданий уровня, что позволяет синтезировать данные с новыми тэгами действий. Это позволяет увеличить разнообразие данных для обучения политик манипуляции без необходимости сбора реальных данных. ## Результаты Мы проверили ROPA на 5 симулированных и 3 реальных задачах. Наши результаты показывают, что ROPA значительно улучшает стабильность и точность синтетических данных, сравниваясь с базовыми методами. Мы провели 2625 симуляционных и 300 реальных экспериментов, показав, что ROPA создает новые действия с более высоким качеством и меньшей нагрузкой на ресурсы. ## Значимость Робот, обученный с помощью ROPA, может заменить реальные данные с тем же уровнем качества. Метод также может быть применен в широком круге задач, включая сборку, перемещение предметов и общение с объектами в eye-to-hand маннипуляции. Это делает ROPA эффективным инструментом для ускорения процесса обучения и увеличения масштабируемости в системах с двумя руками. ## Выводы Мы представили ROPA, метод для генерации синтетических поз рук робота в eye-to-hand маннипуляции. Наши результаты показывают, что ROPA выполняет лучше базовых методов и может быть использована для синтеза новых действий с более высоким качеством. Будущие исследования будут направлены на улучшение физической консистенции и масштабируемости наших технологий.

Annotation:

Training robust bimanual manipulation policies via imitation learning requires demonstration data with broad coverage over robot poses, contacts, and scene contexts. However, collecting diverse and precise real-world demonstrations is costly and time-consuming, which hinders scalability. Prior works have addressed this with data augmentation, typically for either eye-in-hand (wrist camera) setups with RGB inputs or for generating novel images without paired actions, leaving augmentation for eye-...

ID: 2509.19454v1 cs.RO, cs.AI, cs.CV, cs.LG

arXiv PDF

Показано 61 - 70 из 124 записей