📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 MAPS: Preserving Vision-Language Representations via Module-Wise Proximity Scheduling for Better Vision-Language-Action Generalization

2025-11-26

Авторы:

Chengyue Huang, Mellon M. Zhang, Robert Azarcon, Glen Chou, Zsolt Kira

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Vision-Language-Action (VLA) models inherit strong priors from pretrained Vision-Language Models (VLMs), but naive fine-tuning often disrupts these representations and harms generalization. Existing fixes -- freezing modules or applying uniform regularization -- either overconstrain adaptation or ignore the differing roles of VLA components. We present MAPS (Module-Wise Proximity Scheduling), the first robust fine-tuning framework for VLAs. Through systematic analysis, we uncover an empirical or...

ID: 2511.19878v1 cs.CV, cs.AI, cs.CL, cs.LG, cs.RO

arXiv PDF

📄 Open-Universe Assistance Games

2025-08-23

Авторы:

Rachel Ma, Jingyi Qu, Andreea Bobu, Dylan Hadfield-Menell

## Контекст Открытые миры и сложные задачи, которые стоят перед embodied AI-агентами, требуют инновационных подходов к пониманию и выполнению разнообразных целей и предпочтений пользователей. Традиционные системы часто ограничены набором предопределенных целей или тестовой информацией, что ограничивает их универсальность. Без достаточного обобщения и учета непредсказуемости пользовательских целей, эти системы не могут предоставить надёжные решения в реальной среде. Мы предлагаем Open-Universe Assistance Games (OU-AGs), расширенный фреймворк, который позволяет агенту обучаться и действовать в условиях неограниченного и эволюционирующего пространства целей. ## Метод Мы представляем GOOD (GOals from Open-ended Dialogue), метод, основанный на онлайн-интерфейсе, который обучает агента анализировать и предсказывать цели в виде естественного языка во время интеракции с пользователем. GOOD использует генеративные модели типа Large Language Models (LLM) для симуляции разнообразных целей и интентов, включая сложные. Эти модели обучаются на основе диалоговых сценариев, которые генерируются динамически в процессе общения. Данный подход позволяет создавать богатые представления целей и оценивать их неопределённость без необходимости больших обучающих датасетов. ## Результаты Мы провели эксперименты в двух средах: text-based grocery shopping и text-operated simulated household robotics (AI2Thor). Для имитации пользовательских профилей использовались синтетические данные. GOOD показал существенное превосходство по сравнению с базовым методом, не имеющим явного учёта целей, как подтвердили оценки LLM-моделей и эксперименты с реальными пользователями. Это подтверждает эффективность GOOD в определении разнообразных целей и учёте их неопределённости в реальных условиях. ## Значимость Предложенный подход может быть применён в различных областях, включая робототехнику, виртуальные помощники и системы обслуживания клиентов. Он обеспечивает более естественную интеракцию, уменьшает необходимость в крупных обучающих наборах данных и позволяет агентам действовать в условиях неопределённости. Это значительно повышает универсальность и реалистичность агентов, делая их более эффективными в решении сложных задач в жизненных условиях. ## Выводы Наша работа доказывает, что GOOD является эффективным методом для построения агентов с открытым пространством целей. Мы направимся на дальнейшее оптимизацию и расширение GOOD для поддержки большего разнообразия целей и сценариев в реальных средах, чтобы продвигать широкое применение embodied AI в повседневных задачах.

Annotation:

Embodied AI agents must infer and act in an interpretable way on diverse human goals and preferences that are not predefined. To formalize this setting, we introduce Open-Universe Assistance Games (OU-AGs), a framework where the agent must reason over an unbounded and evolving space of possible goals. In this context, we introduce GOOD (GOals from Open-ended Dialogue), a data-efficient, online method that extracts goals in the form of natural language during an interaction with a human, and infe...

ID: 2508.15119v1 cs.AI, cs.CL, cs.LG, cs.RO

arXiv PDF