📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 D2E: Scaling Vision-Action Pretraining on Desktop Data for Transfer to Embodied AI

2025-10-09

Авторы:

Suwhan Choi, Jaeyoon Jung, Haebin Seong, Minchan Kim, Minyeong Kim, Yongjun Cho, Yoonshik Kim, Yubeen Park, Youngjae Yu, Yunsung Lee

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Large language models leverage internet-scale text data, yet embodied AI remains constrained by the prohibitive costs of physical trajectory collection. Desktop environments -- particularly gaming -- offer a compelling alternative: they provide rich sensorimotor interactions at scale while maintaining the structured observation-action coupling essential for embodied learning. We present D2E (Desktop to Embodied AI), a framework that demonstrates desktop interactions can serve as an effective pre...

ID: 2510.05684v1 cs.AI, cs.CV, cs.RO

arXiv PDF

📄 The Safety Challenge of World Models for Embodied AI Agents: A Review

2025-10-09

Авторы:

Lorenzo Baraldi, Zifan Zeng, Chongzhe Zhang, Aradhana Nayak, Hongbo Zhu, Feng Liu, Qunli Zhang, Peng Wang, Shiming Liu, Zheng Hu, Angelo Cangelosi, Lorenzo Baraldi

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

The rapid progress in embodied artificial intelligence has highlighted the necessity for more advanced and integrated models that can perceive, interpret, and predict environmental dynamics. In this context, World Models (WMs) have been introduced to provide embodied agents with the abilities to anticipate future environmental states and fill in knowledge gaps, thereby enhancing agents' ability to plan and execute actions. However, when dealing with embodied agents it is fundamental to ensure th...

ID: 2510.05865v1 cs.AI, cs.CV, cs.RO

arXiv PDF

📄 Video models are zero-shot learners and reasoners

2025-09-26

Авторы:

Thaddäus Wiedemer, Yuxuan Li, Paul Vicol, Shixiang Shane Gu, Nick Matarese, Kevin Swersky, Been Kim, Priyank Jaini, Robert Geirhos

## Контекст В статье рассматривается роль видеомоделей в области общего понимания визуального мира. Несмотря на то, что Large Language Models (LLMs) стали синонимом универсального понимания языка, видеомодели оставались ограниченными в своих применениях. В последнее время видеомодели начали предпринимать похожие шаги к универсальному пониманию, воспринимая и моделируя визуальные данные. Однако их потенциал в области целенаправленного моделирования визуальных задач до сих пор остается неясным. Наша модель, Veo 3, демонстрирует замечательные возможности в решении задач, которым не было явной подготовки. Этот поиск показывает, что видеомодели могут стать генеральными моделями для визуального понимания, аналогично тому, как LLMs стали генеральными моделями для языкового понимания. ## Метод Мы использовали модель Veo 3, тренированную на данных видео, чтобы протестировать ее возможности в решении различных задач визуального понимания. Наша методика включала использование тестов, в которых модель должна была решать задачи, для которых она не была явно обучена. Тестов включали визуальное разбиение объектов, определение рельефа, редактирование изображений, понимание физических свойств, распознавание аффордансов объектов, моделирование использования инструментов и визуальную резолюцию. Мы сравнивали результаты с другими моделями и экспериментами, чтобы оценить эффективность Veo 3 в этих задачах. ## Результаты Модель Veo 3 демонстрировала возможности решения широкого спектра задач по визуальному пониманию, которые не были явно заложены в ее обучение. Например, она смогла определить объекты, определить рельеф и физические свойства, а также решать задачи, такие как мазе и симметрия. Особенно заметны явления нулевого запуска (zero-shot learning), когда модель смогла решать задачи, не имея предварительной информации об их решении. Наши результаты также показывают, что Veo 3 имеет потенциал для моделирования визуальных задач в целом, что делает её эффективной в различных визуальных исследованиях. ## Значимость Наши результаты показывают, что видеомодели, использующие глубокое обучение на видеоданных, могут быть применены во многих областях визуального понимания, основываясь на их возможности решать задачи, не будучи явно обученными к ним. Это демонстрирует рост видеомоделей как крепких, генеральных моделей для визуального понимания. Помимо этого, Veo 3 демонстрирует возможность видеомоделей для решения задач, которые требуют визуальной разборки и моделирования. Это может быть применено в различных областях, таких как поиск изображений, анализ медиа,

Annotation:

The remarkable zero-shot capabilities of Large Language Models (LLMs) have propelled natural language processing from task-specific models to unified, generalist foundation models. This transformation emerged from simple primitives: large, generative models trained on web-scale data. Curiously, the same primitives apply to today's generative video models. Could video models be on a trajectory towards general-purpose vision understanding, much like LLMs developed general-purpose language understa...

ID: 2509.20328v1 cs.LG, cs.AI, cs.CV, cs.RO

arXiv PDF

📄 Robix: A Unified Model for Robot Interaction, Reasoning and Planning

2025-09-05

Авторы:

Huang Fang, Mengxi Zhang, Heng Dong, Wei Li, Zixuan Wang, Qifeng Zhang, Xueyun Tian, Yucheng Hu, Hang Li

## Контекст В последние годы возрос внимание к развитию интеллектуальных роботов, которые могут справляться с многозадачностью, общаться с пользователями и выполнять требовательные задачи в реальном мире. Однако существуют несколько значимых проблем. На сегодняшний день, большинство роботов взаимодействуют с пользователями через специализированные модели, некоторые из которых нацелены на задачи природного языка, но не всегда в состоянии распознавать контекст. Кроме того, многие роботы не могут применительно к сложным задачам выполнить планирование с течением времени, что приводит к сбоям в выполнении задач. Эта ситуация ставит в ответственность разработчиков роботов на поиск решений, которые позволят роботам более эффективно работать в составе интеллектуальных систем. Таким образом, появляется мотивация для разработки универсальной модели, которая может объединить природное взаимодействие, принятие решений и задание целей в одной архитектуре. ## Метод Робот-система Robix представляет собой универсальную модель, включающую в себя мощные средства для визуального понимания, планирования задач и общения. Она динамически формирует набор минимальных команд для низкоуровневого управления и при этом может также запускать разговорные ответы для взаимодействия с человеком. Robix работает в качестве высокоуровневого компонента в иерархической системе робота. Она обрабатывает задачи, начиная с простых до сложных, включая взаимодействие с человеком, планирование шагов выполнения, а также отслеживание контекста в течение общения. Метод основывается на цепочке мыслей (chain-of-thought) и имеет трехэтапную стратегию обучения: 1. Дополнительное обучение для улучшения навыков визуального и спациального понимания, гамма-разметки и задач специфичных для задач; 2. Обучение на основе наблюдений для синтеза логики принятия решений и действий в интерактивных сценариях; 3. Регуляризация через учебный процесс реинфорсмента для повышения согласованности в решении задач и долгосрочного планирования. ## Результаты Проводились различные эксперименты, включая оценку уровня успешности в интерактивном выполнении задач, который наблюдался в сценариях с открытыми, многоэтапными, ограниченными и прерванными инструкциями. Демонстрационные результаты показали, что Robix выполняет задачи гораздо эффективнее, чем существующие системы на основе GPT-4 и Gemini 2.5 Pro. Она успешно справляется с различными типами задач, включая: - Обслуживание столов в ресторане; - Покупка продуктов в магазине; - Отбор продуктов, соответствующих определенным тре

Annotation:

We introduce Robix, a unified model that integrates robot reasoning, task planning, and natural language interaction within a single vision-language architecture. Acting as the high-level cognitive layer in a hierarchical robot system, Robix dynamically generates atomic commands for the low-level controller and verbal responses for human interaction, enabling robots to follow complex instructions, plan long-horizon tasks, and interact naturally with human within an end-to-end framework. Robix fu...

ID: 2509.01106v1 cs.AI, cs.CV, cs.RO

arXiv PDF

📄 sam-llm: interpretable lane change trajectoryprediction via parametric finetuning

2025-09-05

Авторы:

Zhuo Cao, Yunxiao Shi, Min Xu

Научная статья представляет SAM-LLM — новую гибридную модель, которая объединяет контекстное разумение Large Language Models (LLMs) с физической точностью моделей кинематики для прогнозирования траекторий смены полосы движения в автономном вождении. Основная идея заключается в том, чтобы приспособить LLM для предсказания ключевых физических параметров траектории (например, отклонение, продолжительность маневра, начальная латентная скорость и изменение горизонтальной скорости) вместо вывода координат в виде непрерывных векторов. Этот подход позволяет получить полную, непрерывную и физически правильную модель траектории, которая интерпретируемая и эффективна в ресурсах, сокращая размер выходных данных на 80% по сравнению с методами, основанными на координатах. Модель достигла высокой точности прогнозирования намерений — 98,73%, показав себя эквивалентной традиционным LLM-моделям, но с дополнительным преимуществом возможности точного объяснения результатов.

Annotation:

This work introduces SAM-LLM, a novel hybrid architecture that bridges the gap between the contextual reasoning of Large Language Models (LLMs) and the physical precision of kinematic lane change models for autonomous driving. The system is designed for interpretable lane change trajectory prediction by finetuning an LLM to output the core physical parameters of a trajectory model instead of raw coordinates. For lane-keeping scenarios, the model predicts discrete coordinates, but for lane change...

ID: 2509.03462v1 cs.AI, cs.CV, cs.RO

arXiv PDF

Показано 11 - 15 из 15 записей