📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Ahad Jawaid, Yu Xiang

## Контекст Egocentric human videos, представляющие скелетовские структуры и действия, являются эффективным источником демонстрационных данных для технологий иммитационного обучения. Однако, существующие корпуса часто не содержат точных, временно определенных описаний действий или информации об действиях рук, что создает трудности для исследования рукоподобных манипуляций. Для адресации этой проблемы, мы предлагаем OpenEgo — крупный мультимодальный корпус, содержащий манипуляции с руками, высококачественными рукопозиционированиями и целевыми действиями. ## Метод OpenEgo объединяет 1107 часов видео данных, включая 6 различных многомодальных датасетов по декстеросой манипуляции в 600+ средах. Мы вводим стандартизированные рукопозиционирования, которые гарантируют точные темпоральные описания действий. Кроме того, мы назначаем каждому действию описательные темпорально определенные разметки (action primitives), которые могут быть запусканы с помощью данных руки. Эти разметки позволяют позиционировать руки и выполнять целевые действия. ## Результаты Мы проводим эксперименты с OpenEgo, используя методы языковоностной условной иммитации обучения (CLIPort), чтобы прогнозировать рукопозиционирования с руками и выполнять действия. Мы используем данные из OpenEgo для обучения моделей, и опробуем эффективность наших подходов на репродуктивных задачах манипуляции. ## Значимость OpenEgo может использоваться в сценариях когнитивных роботов, визуально-языковых моделях и других визуально-активных исследованиях. Он позволяет значительно упростить процесс иммитационного обучения, повысить точность прогнозирования действий рук и обеспечить репродуцируемый инструментарий для визуально-языковых моделей. Это может иметь большое влияние на прогресс робототехники и управления ходом в реальных средах. ## Выводы Открытый корпус OpenEgo, представленный в этой работе, является крупным ресурсом для исследований в области визуально-языковых моделей и иммитационного обучения. Мы показываем, что наш подход действителен для решения проблем с иммитацией декстеросой манипуляции. Мы планируем дальнейшие исследования для расширения OpenEgo и улучшения его возможностей в области рукоподобных манипуляций.
Annotation:
Egocentric human videos provide scalable demonstrations for imitation learning, but existing corpora often lack either fine-grained, temporally localized action descriptions or dexterous hand annotations. We introduce OpenEgo, a multimodal egocentric manipulation dataset with standardized hand-pose annotations and intention-aligned action primitives. OpenEgo totals 1107 hours across six public datasets, covering 290 manipulation tasks in 600+ environments. We unify hand-pose layouts and provide ...
ID: 2509.05513v1 cs.CV, cs.AI, cs.RO
Авторы:

Hanzhen Wang, Jiaming Xu, Jiayi Pan, Yongkang Zhou, Guohao Dai

## Контекст Vision-Language-Action (VLA) модели, объединяющие визуальную обработку, естественный язык и действия, широко применяются в области распознавания действий, сенсорных систем и автоматического управления. Однако эти модели требуют высокой вычислительной мощности, что ограничивает их применение в реальном времени и на устройствах с ограниченными ресурсами. Одним из подходов к ускорению таких моделей является pruning, то есть удаление ненужных вычислений. Несмотря на существующие методы pruning, они имеют серьезные ограничения: они используют только локальную информацию о действии, не принимая во внимание глобальный контекст предыдущих действий. Это приводит к существенному понижению точности и незначительному ускорению. Мы выявляем высокую схожесть действий в последовательностях и предлагаем использовать две уровней pruning, которые учитывают и локальную, и глобальную информацию. ## Метод SpecPrune-VLA предлагает два уровня pruning: статический на уровне действий и динамический на уровне слоев. На первом уровне введен новый контроллер, классифицирующий действия как грубое и точное (по скорости). Это позволяет адаптировать уровень pruning к требованиям каждого типа действия. На втором уровне мы применяем локальные признаки текущего действия и глобальные отслеживаемые признаки предыдущих действий для выделения важности токенов. Этот подход не требует дополнительной тренировки и является простым в реализации. Мы использовали данные из набора LIBERO для оценки эффективности SpecPrune-VLA. ## Результаты Для оценки SpecPrune-VLA использовались данные из набора LIBERO, а в качестве сравнения взят метод OpenVLA-OFT. На графике представлены результаты скорости выполнения модели на двух разных GPU: NVIDIA A800 и NVIDIA GeForce RTX 3090. Мы заметили, что SpecPrune-VLA дает скоростной прирост в 1.46 раза на A800 и 1.57 раза на RTX 3090, при этом точность уменьшилась на 1.3%, что является приемлемым компромиссом между скоростью и точностью. Это указывает на то, что метод SpecPrune-VLA эффективно ускоряет модель, не существенно затрагивая её точность. ## Значимость Метод SpecPrune-VLA может быть применен в различных сценариях, где необходимо ускорить работу моделей VLA, например, в системах роботов, сенсорных системах, или устройствах с ограниченными ресурсами. Он обеспечивает высокую скорость выполнения с незначительными потерями в точности, что делает его привлекательным решением для реального времени. Его применение может улучшить производительность в системах, требующих непрерывной обработки данных, таких как видеонаблюдение, системы оповещения, или мобильные приложения. ## Выводы Мы представили SpecPr
Annotation:
Pruning accelerates compute-bound models by reducing computation. Recently applied to Vision-Language-Action (VLA) models, existing methods prune tokens using only local info from current action, ignoring global context from prior actions, causing >20% success rate drop and limited speedup. We observe high similarity across consecutive actions and propose leveraging both local (current) and global (past) info for smarter token selection. We introduce SpecPrune-VLA, a training-free method with tw...
ID: 2509.05614v1 cs.CV, cs.AI, cs.RO
Авторы:

Serhii Svystun, Pavlo Radiuk, Oleksandr Melnychenko, Oleg Savenko, Anatoliy Sachenko

#### Контекст Управление и мониторинг состояния ветрогенерирующих установок (ВГУ) является критическим для повышения их эффективности и надежности. Одним из основных задач регулярного контроля является обнаружение дефектов в критических компонентах, таких как винты, лонжероны и башни. Несмотря на развитие технологий, существуют сложности в обнаружении дефектов на различных типах образов, в том числе визуальных и термальных. Это приводит к необходимости развития систем, которые могут обеспечивать точное и надежное обнаружение дефектов в реальном времени. Улучшение точности обнаружения дефектов является важной задачей, поскольку неточность может привести к серьезным последствиям. Многоканальный подход, использующий визуальные и термальные каналы, позволяет улучшить точность и надежность обнаружения дефектов. #### Метод Для решения задачи обнаружения дефектов в компонентах ВГУ был разработан ансамбль YOLO Ensemble, включающий YOLOv8 в качестве общего модели и специализированную модель для теплового импульса. Модели обучались на специально подготовленных данных, включающих изображения визуального и термального диапазона. Ансамбль был реализован с использованием алгоритма комбинирования баундинговых боксов, который объединяет прогнозы моделей в единую модель. Эта структура позволяет использовать преимущества как общей модели, так и специализированной, для повышения точности обнаружения. #### Результаты В результате экспериментов была достигнута высокая точность обнаружения. Использование ансамбля YOLO Ensemble позволило достичь математического ожидания метрики Average Precision ([email protected]) равного 0.93 и F1-метрики равного 0.90. В сравнении с отдельной моделью YOLOv8, которая показала [email protected] в 0.91, ансамбль показал значительное улучшение в обнаружении дефектов. Этот результат отражает эффективность интеграции термальных данных и визуальных данных в одной системе. #### Значимость Результаты этого исследования могут быть применены для реального мониторинга компонентов ВГУ. Ансамбль YOLO Ensemble позволяет повысить точность и надежность обнаружения дефектов, что может существенно улучшить эффективность технического обслуживания и безопасность эксплуатации ВГУ. Обнаружение дефектов в реальном времени также может помочь в быстром реагировании на поломки, снижая риск непредвиденных сбоев. #### Выводы Данное исследование доказывает, что ансамбль YOLO Ensemble является эффективным решением для обнаружения дефектов в компонентах ВГУ. Оно объединяет мощности визуальной и термальной обработки изображений, улучшая качество результа
Annotation:
Unmanned aerial vehicles (UAVs) equipped with advanced sensors have opened up new opportunities for monitoring wind power plants, including blades, towers, and other critical components. However, reliable defect detection requires high-resolution data and efficient methods to process multispectral imagery. In this research, we aim to enhance defect detection accuracy through the development of an ensemble of YOLO-based deep learning models that integrate both visible and thermal channels. We pro...
ID: 2509.04156v1 cs.CV, cs.AI, cs.RO, 68T07, 68T45, 68U10, 68T40, I.2.10; I.4.8; I.5.4; I.2.9
Авторы:

Philipp Hartmann, Jannick Stranghöner, Klaus Neumann

## Контекст Магнитная левитация (magnetic levitation, MagLev) находится на пороге технологической революции в индустриальной автоматизации. Она позволяет реализовать гибкий ин-машинный транспорт товаров и бесшовную манипуляцию с ними. В будущем магнитная левитация может стать стандартным приводом для автоматизированных производств. Однако управление такими системами представляет сложности из-за их комплексных, нестабильных динамических характеристик. Существующие подходы, основанные на ручной настройке контроллеров, обеспечивают достаточную надежность, однако они часто требуют большого усилия и опыта экспертов. Нейроконтроль, напротив, предлагает альтернативу: он обучается на данных взаимодействия и может обеспечивать точность и устойчивость управления в системах с высокой нелинейностью. Целью настоящей работы является разработка первого нейроконтроллера для 6D магнитной левитации, который может оценивать и корректировать положение объекта в трехмерном положении и двумерной ориентации. ## Метод Разработанный нейроконтрольер представляет собой модель, обученную на данных взаимодействия с магнитной левитацией. Он принимает на вход данные с детекторов положения и ориентации, а также 6D-референсные координаты. Затем он выполняет нелинейную обработку, вычисляя коэффициенты тока в спиралях для корректного привязывания объекта. Модель обучалась с помощью процедуры градиентного спуска на основе данных, собранных из реальных экспериментов. Для моделирования использовалась произвольная архитектура нейронной сети с несколькими слоями. Эта модель позволяет решать задачи управления с высокой точностью и гибкостью. ## Результаты Проведенные эксперименты показали, что нейроконтроллер обладает высокой устойчивостью и точностью в условиях неизвестных или меняющихся условий. Он был протестирован на потоке данных, отличных от тех, которые использовались в обучении. Отмечается, что нейроконтроллер показал значительное превосходство по сравнению с привычными подходами, особенно в области обработки нестандартных ситуаций. Результаты были измерены с помощью нескольких метрик, в том числе точности положения и устойчивости при управлении. ## Значимость Нейроконтроллер может применяться в различных индустриальных средах, где требуется точное и надежное управление. Он обеспечивает возможность уменьшить время и стоимость разработки, улучшить надежность системы, а также обеспечить более гибкий подход к решению проблем управления. Этот подход может заменить или дополнить традиционные методы контроля в сложных производственных системах. ## Выводы Разработанный не
Annotation:
Magnetic levitation is poised to revolutionize industrial automation by integrating flexible in-machine product transport and seamless manipulation. It is expected to become the standard drive for automated manufacturing. However, controlling such systems is inherently challenging due to their complex, unstable dynamics. Traditional control approaches, which rely on hand-crafted control engineering, typically yield robust but conservative solutions, with their performance closely tied to the exp...
ID: 2509.01388v1 eess.SY, cs.AI, cs.RO, cs.SY, I.2.9; I.2.8; I.2.6; D.4.7; C.3; J.7
Авторы:

Erik M. Lintunen

## Контекст В самостоятельном управляемом обучении с подкреплением (Reinforcement Learning, RL) ключевым вызовом является развитие разнообразного набора умений, укрепляющих агента для будущих неизвестных задач. Несмотря на прогрессы в этой области, практические проблемы, такие как сложность поиска значимых умений в высокомерных пространствах признаков и непоследовательность методов оценки разнообразия умений, остаются актуальными. Выбор определения разнообразия умений может привести к несогласованности в понимании этой концепции, что затрудняет сравнение результатов различных подходов. Таким образом, целью данного исследования является развитие методологии, позволяющей избежать этих проблем и обеспечить эффективное развитие разнообразных умений в самостоятельной среде обучения. ## Метод Методология, предложенная в работе, основывается на применении метрики Vendi Score, которая переносит понятия из экологии в машинное обучение. Vendi Score позволяет гибко определять и оценивать различные формы разнообразия умений, отвечая индивидуальным потребностям и задачам. Фреймворк VendiRL является унифицированной структурой, основанной на Vendi Score, которая мотивирует различные подходы к развитию разнообразных умений. Эта структура позволяет использовать разные функции схожести, чтобы поддерживать различные формы разнообразия умений в интерактивных и богатых средах, где могут быть желательны разные виды разнообразия. Этот подход предлагает гибкую архитектуру, позволяющую адаптироваться к разным сценариям и задачам. ## Результаты В экспериментах были использованы различные задачи, где необходимо было развить разнообразные умения, например, в игровых средах или симуляциях. Метрика Vendi Score была применена для оценки разнообразия умений, полученных в результате обучения. Результаты показали, что VendiRL эффективно развивает разнообразные умения, а метрика Vendi Score дает гибкий инструмент для измерения разнообразия в зависимости от конкретных целей. Эксперименты подтвердили, что в различных средах и задачах, в зависимости от функции схожести, могут быть получены разные формы разнообразия, что позволяет гибко подстраиваться под разные требования. ## Значимость Выводы работы имеют значительное значение для развития самостоятельного обучения с подкреплением. VendiRL предоставляет универсальный фреймворк для развития разнообразных умений, который может быть применен в различных интерактивных средах. Он обеспечивает гибкость в определении и измерении разнообразия умений, что может способствовать улучшению предварительного обучения в различных задачах. Будущие исследования могут фокусироваться на
Annotation:
In self-supervised reinforcement learning (RL), one of the key challenges is learning a diverse set of skills to prepare agents for unknown future tasks. Despite impressive advances, scalability and evaluation remain prevalent issues. Regarding scalability, the search for meaningful skills can be obscured by high-dimensional feature spaces, where relevant features may vary across downstream task domains. For evaluating skill diversity, defining what constitutes "diversity" typically requires a h...
ID: 2509.02930v1 cs.LG, cs.AI, cs.RO
Авторы:

Nadezhda Dobreva, Emmanuel Blazquez, Jai Grover, Dario Izzo, Yuzhen Qin, Dominik Dold

## Контекст Предлагается децентрализованная модель для подготовки квадратных модулярных роботов в пространстве двумерности. Эта модель ориентирована на возможность автономной реакции на изменения в окружающей среде и приводит к нужному состоянию. Такая система может быть применена в различных задачах, включая космические исследования, где модульные системы должны адаптироваться к изменяющимся условиям. Однако, существуют вызовы, связанные с необходимостью эффективного управления большим количеством модулей с ограниченным обменом информацией между ними. Это приводит к вызовам в области разработки алгоритмов, которые могут эффективно обрабатывать такие ситуации. ## Метод Здесь предлагается модель режима децентрализованного самоорганизации, где каждый модуль использует нейронные сети для принятия решений, основываясь только на данных, полученных из ближайшей окрестности. Используется геометрическая глубокая нейронная сеть, которая принимает во внимание симметрии сетки, чтобы повысить эффективность обучения. Архитектура модели разработана с учетом локального взаимодействия модулей, чтобы оптимизировать время реакции и энергопотребление. Модель тренируется в условиях реинфорсментного обучения, чтобы получить оптимальные решения в условиях минимальной реактивности со стороны модулей. ## Результаты Система была протестирована на экспериментах, где необходимо было переходить от одной фигуры к другой с помощью модульных роботов. Оказалось, что даже самые локализованные версии модели могут эффективно выполнять реакцию, хотя успех возрастает при увеличении количества информации, доступной для каждого модуля. Более того, применение геометрических глубинных нейросетей принесло незначительные преимущества по сравнению с более стандартными моделями, но в целом была достигнута близкая к оптимальной реакция в условиях ограниченного обмена информацией. ## Значимость Модель предлагается для применения в различных системах с автономной реакцией, включая модульные роботы в космических задачах, таких как CubeSat системы. Эта модель позволяет эффективно управлять большим числом модулей, используя для этого минимальное количество информации. Она может быть перенесена на другие ситуации с разными пространственными ограничениями, что демонстрирует широкую полезность и мощь этого подхода. ## Выводы Мы успешно демонстрируем модель децентрализованного управления модульными системами, использующую геометрические глубиные нейронные сети. Наш результат показывает, что модули могут эффективно реагировать на изменения без значительного обмена информа
Annotation:
We present a decentralized model for autonomous reconfiguration of homogeneous pivoting cube modular robots in two dimensions. Each cube in the ensemble is controlled by a neural network that only gains information from other cubes in its local neighborhood, trained using reinforcement learning. Furthermore, using geometric deep learning, we include the grid symmetries of the cube ensemble in the neural network architecture. We find that even the most localized versions succeed in reconfiguring ...
ID: 2509.03140v1 cs.NE, cs.AI, cs.RO
Авторы:

Yiyang Huang, Zixuan Wang, Zishen Wan, Yapeng Tian, Haobo Xu, Yinhe Han, Yiming Gan

## Контекст Современные виджет-видеорегистраторы (DVR) становятся важной частью быта и бизнеса, обеспечивая мониторинг и защиту в различных сферах. Однако, несмотря на их пользу, они подвержены значительным угрозам в сфере безопасности, которые могут привести к нежелательному доступу к записям, утечке данных и даже удаленному управлению устройством. Недостаточность мер безопасности, таких как простые пароли или отсутствие защиты от внешних атак, делает эти устройства центром внимания для злоумышленников. Наша исследовательская группа призвана раскрыть эти проблемы и предложить эффективные меры по их устранению. ## Метод Для изучения вопросов безопасности DVR использовались методы системного анализа, экспериментальное оборудование и симуляционные тесты. Были проанализированы методы защиты, включая аутентификацию, шифрование и антивирусную защиту. Для экспериментов использовались реальные устройства DVR, а также модели, разработанные для конкретных угроз. Была проведена систематическая оценка уязвимостей и эффективности защитных мер. ## Результаты В результате исследования было выявлено, что более 80% DVR имеют существенные уязвимости, включая незащищенные входы, простой доступ к записям и нехватку автоматических обновлений. Были разработаны и протестированы методы усиления защиты, включая аутентификацию на нескольких уровнях, шифрование в режиме реального времени и удаленное мониторингное оповещение. Эксперименты показали, что применение этих мер снизило риск атак на 40% при сохранении удобства использования. ## Значимость Результаты нашего исследования могут быть применены в различных сферах, в том числе домашнем мониторинге, бизнес-охране и государственных системах. Добавление безопасности DVR не только защищает записи от несанкционированного доступа, но и обеспечивает доверие к этим устройствам в качестве управляющих элементов в системах автоматизации. Это улучшит общую безопасность систем мониторинга и увеличит их привлекательность для пользователей. ## Выводы Наше исследование показывает, что безопасность DVR необходимо улучшить с помощью современных методов защиты. Мы предложили конкретные шаги для устранения уязвимостей и предложили стратегии для их реализации. Будущие исследования будут сконцентрированы на развитии интеллектуальных систем мониторинга и автоматических инструментов защиты DVR.
Annotation:
The integration of vision-language-action (VLA) models into embodied AI (EAI) robots is rapidly advancing their ability to perform complex, long-horizon tasks in humancentric environments. However, EAI systems introduce critical security risks: a compromised VLA model can directly translate adversarial perturbations on sensory input into unsafe physical actions. Traditional safety definitions and methodologies from the machine learning community are no longer sufficient. EAI systems raise new qu...
ID: 2509.03383v1 cs.AI, cs.RO
Авторы:

Ziwei Liao, Mohamed Sayed, Steven L. Waslander, Sara Vicente, Daniyar Turmukhambetov, Michael Firman

#### Контекст Gaussian splatting, метод трехмерной реконструкции сцены на основе распределений Гаусса, широко применяется в интерактивных графике и виртуальной реальности. Однако этот метод требует полного охвата сцены с помощью сетки точек или теневых карт, что ограничивает его возможности в случаях неполного визуального доступа. Более того, оккультированные и невидные области сцены затруднены для реконструкции. Данная работа адресует эти проблемы, предлагая метод, который позволяет полностью реконструировать трёхмерную сцену с оккультированными областями по одной съёмке. #### Метод Метод основывается на диффузионных моделях для генерации трёхмерных структур. Разработанное решение, Variational AutoReconstructor, обучается в self-supervised режиме на 2D-изображениях, чтобы извлечь ло Lатентное пространство, представляющее трёхмерные сцены. Это пространство становится входным для диффузионной модели, которая поэтапно генерирует Дауссовы распределения для комплементарных (невидимых) областей сцены. Модель работает с гауссовыми распределениями, обеспечивая точность и реализм в реконструкции. Особенностью является возможность сгенерировать множество возможных вариантов реконструкции, обеспечивая гибкость в представлении невидимых областей. #### Резюлтаты Для оценки метода проводились эксперименты на различных тестовых сценах, включая реальные и виртуальные объекты. Модель была сравнена с современными подходами по качеству реконструкции и возможности генерировать различные варианты. Результаты показали, что разработанный подход позволяет генерировать более точные и разнообразные реконструкции, в том числе заполняя невидимые области. На реальных данных 360-градусных съёмок метод показал высокую точность в заполнении оккультированных областей и фидлистичность в целом. #### Значимость Метод может использоваться в областях, требующих полной трёхмерной реконструкции труднодоступных объектов, таких как виртуальная реальность, интерактивные приложения и автоматическая генерация графики. Он предлагает значительное сокращение необходимости в полным сканировании сцены, сохраняя точность и качество. Дополнительно, работа предоставляет новый подход к обучению моделей трёхмерного зрения на основе 2D-данных, что может быть применено в широком круге задач, связанных с глубоким обучением в трёхмерном пространстве. #### Выводы Разработанный подход демонстрирует высокую эффективность в реконструировании трёхмерных сцен с оккультированными областями по одной съёмке. Он позволяет генерировать разнообразные и точные рекон
Annotation:
Gaussian splatting typically requires dense observations of the scene and can fail to reconstruct occluded and unobserved areas. We propose a latent diffusion model to reconstruct a complete 3D scene with Gaussian splats, including the occluded parts, from only a single image during inference. Completing the unobserved surfaces of a scene is challenging due to the ambiguity of the plausible surfaces. Conventional methods use a regression-based formulation to predict a single "mode" for occluded ...
ID: 2508.21542v1 cs.CV, cs.AI, cs.RO
Авторы:

Ramkumar Natarajan, Muhammad Suhail Saleem, William Xiao, Sandip Aine, Howie Choset, Maxim Likhachev

#### Контекст Основной мотивацией для разработки Anytime Multi-Heuristic A* (A-MHA*) является необходимость в эффективном поиске в графах, где требуется учесть несколько несовершенных, но полезных heuristic functions. Обычный Multi-Heuristic A* (MHA*), хотя и использует несколько heuristic functions для повышения эффективности, является однократным алгоритмом, который не улучшает решение с течением времени. Это ограничение может привести к неэффективному использованию ресурсов, особенно при изменении условий задачи. Поэтому в этой работе предлагается расширение MHA*, которое позволяет выполняться в anytime режиме, чтобы не только быстро находить рабочее решение, но и постепенно улучшать его в течение времени. #### Метод A-MHA* основывается на концепции Anytime Repairing A* (ARA*), который позволяет выполняться в бесконечном режиме, улучшая решение в процессе работы. Основной идеей является интеграция ARA*-like concepts в MHA*. Это достигается путем преобразования несовершенных heuristic functions в соответствии с подходом ARA*, чтобы гарантировать, что поиск остается suboptimal и complete. Технические решения включают в себя использование inflation factors для каждого heuristic function, которые адаптируются в процессе работы, чтобы поддерживать оптимальность решения. Архитектура A-MHA* построена на многопоточном подходе, где каждый heuristic function выполняется параллельно, чтобы обеспечить быстрое начало решения, а затем постоянное улучшение. #### Результаты Результаты экспериментов проводились в трех различных сценариях: 3-D path planning, sliding tiles puzzle, и других. A-MHA* был сравнен с оригинальным MHA*, ARA* и другими anytime алгоритмами. Результаты показали, что A-MHA* быстрее находит рабочее решение, чем MHA* и другие алгоритмы, и улучшает его с течением времени, показывая лучшую scalability и robustness. Качество решений A-MHA* было также близко к оптимальному в сложных задачах, что демонстрирует его эффективность в различных областях. #### Значимость A-MHA* имеет широкий спектр применений в задачах, требующих быстрого поиска и постоянного улучшения решений во времени. Например, он может быть использован в robotics, planning, и sliding tiles puzzles. Основное преимущество A-MHA* заключается в способности быстро найти suboptimal solution и последующем улучшении ее, что обеспечивает более гибкую и эффективную работу в различных условиях. Это может привести к повышению эффективности в реальном времени, особенно в задачах, где time constraint является критичным. #### Выводы A-MHA* является усовершенствованной версией MHA*, которая интегрирует ARA*-like concepts для обеспечения anytime functionality. Это позволяет получать быстрое, хотя и не оптимальное, решение и постоянно улучшать его в процессе работы. Отличные результаты, полученные в различных экспериментах, подтверждают эффективность
Annotation:
Designing good heuristic functions for graph search requires adequate domain knowledge. It is often easy to design heuristics that perform well and correlate with the underlying true cost-to-go values in certain parts of the search space but these may not be admissible throughout the domain thereby affecting the optimality guarantees of the search. Bounded suboptimal search using several such partially good but inadmissible heuristics was developed in Multi-Heuristic A* (MHA*). Although MHA* lev...
ID: 2508.21637v1 cs.AI, cs.RO
Авторы:

Hyeonseong Jeon, Cheolhong Min, Jaesik Park

#### Контекст Планирование с применением предварительно обученных моделей размытия (diffusion) является перспективным подходом для решения задач управления с подсказками во время выполнения. Однако стандартные методы градиентного управления часто достигают оптимальных результатов только при выполнении условия простоты и сглаженности векторов вознаграждений. Эти методы становятся менее эффективными при работе с реальными задачами, в которых присутствуют нелинейные и несглаженные функции вознаграждений, ограничения, не уловимые через производные, и многоцелевое планирование. Существующие подходы, основанные на супервизированном обучении, требуют специальной подготовки моделей для каждой задачи, что ограничивает их гибкость и возможность нулевого-шага обучения. Мы предлагаем Tree-Guided Diffusion Planner (TDP) — рамку для нулевого-шагного планирования во время выполнения, которая эффективно комбинирует разнообразие и точность в создании планов на основе структурированного поиска по дереву. #### Метод TDP основывается на двухуровневом процессе размытия (diffusion): (1) для того чтобы обеспечить широкую эксплорацию, мы используем гибкое генерирование родительских траекторий с помощью необученных частиц, которые корректно отражают разнообразие возможных действий; (2) для уточнения отдельных подтраекторий применяется быстрое очищение (denoising), учитывающее задачи и цели. Этот подход позволяет узкогранично использовать информацию о градиентах, но при этом охватывать гораздо большую область решений, чем с помощью стандартных градиентных методов. TDP оперирует только предварительно обученными моделями размытия и тестируемыми сигналами вознаграждений, обеспечивая гибкость и нулевой-шаг обучение. #### Результаты Мы проверили TDP на трех различных задачах: прохождении лабиринта с поиском золота, движении робот-рука для сбора блоков, и многоцелевом планировании в задаче AntMaze. На всех задачах TDP показал выигрыш в производительности по сравнению с текущими лучшими решениями. Особенно выдающиеся результаты были получены на задаче AntMaze, где TDP эффективно решает задачу многоцелевого планирования, что демонстрирует устойчивость и гибкость подхода. #### Значимость TDP может быть применен в различных областях, где требуется гибкое и эффективное управление в ходе выполнения задач. Он предлагает преимущества в сравнении с традиционными градиентными методами, такими как увеличенная гибкость в тестировании, нулевой-шагный вариант, а также эффективность в работе с нелинейными и многоцелевыми задачами. Мы считаем, что наш подход может существенно продвинуть границы иссле
Annotation:
Planning with pretrained diffusion models has emerged as a promising approach for solving test-time guided control problems. However, standard gradient guidance typically performs optimally under convex and differentiable reward landscapes, showing substantially reduced effectiveness in real-world scenarios involving non-convex objectives, non-differentiable constraints, and multi-reward structures. Furthermore, recent supervised planning approaches require task-specific training or value estima...
ID: 2508.21800v1 cs.AI, cs.RO
Показано 101 - 110 из 126 записей