📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Suwhan Choi, Jaeyoon Jung, Haebin Seong, Minchan Kim, Minyeong Kim, Yongjun Cho, Yoonshik Kim, Yubeen Park, Youngjae Yu, Yunsung Lee
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Large language models leverage internet-scale text data, yet embodied AI
remains constrained by the prohibitive costs of physical trajectory collection.
Desktop environments -- particularly gaming -- offer a compelling alternative:
they provide rich sensorimotor interactions at scale while maintaining the
structured observation-action coupling essential for embodied learning. We
present D2E (Desktop to Embodied AI), a framework that demonstrates desktop
interactions can serve as an effective pre...
Авторы:
Lorenzo Baraldi, Zifan Zeng, Chongzhe Zhang, Aradhana Nayak, Hongbo Zhu, Feng Liu, Qunli Zhang, Peng Wang, Shiming Liu, Zheng Hu, Angelo Cangelosi, Lorenzo Baraldi
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
The rapid progress in embodied artificial intelligence has highlighted the
necessity for more advanced and integrated models that can perceive, interpret,
and predict environmental dynamics. In this context, World Models (WMs) have
been introduced to provide embodied agents with the abilities to anticipate
future environmental states and fill in knowledge gaps, thereby enhancing
agents' ability to plan and execute actions. However, when dealing with
embodied agents it is fundamental to ensure th...
Авторы:
Thaddäus Wiedemer, Yuxuan Li, Paul Vicol, Shixiang Shane Gu, Nick Matarese, Kevin Swersky, Been Kim, Priyank Jaini, Robert Geirhos
## Контекст
В статье рассматривается роль видеомоделей в области общего понимания визуального мира. Несмотря на то, что Large Language Models (LLMs) стали синонимом универсального понимания языка, видеомодели оставались ограниченными в своих применениях. В последнее время видеомодели начали предпринимать похожие шаги к универсальному пониманию, воспринимая и моделируя визуальные данные. Однако их потенциал в области целенаправленного моделирования визуальных задач до сих пор остается неясным. Наша модель, Veo 3, демонстрирует замечательные возможности в решении задач, которым не было явной подготовки. Этот поиск показывает, что видеомодели могут стать генеральными моделями для визуального понимания, аналогично тому, как LLMs стали генеральными моделями для языкового понимания.
## Метод
Мы использовали модель Veo 3, тренированную на данных видео, чтобы протестировать ее возможности в решении различных задач визуального понимания. Наша методика включала использование тестов, в которых модель должна была решать задачи, для которых она не была явно обучена. Тестов включали визуальное разбиение объектов, определение рельефа, редактирование изображений, понимание физических свойств, распознавание аффордансов объектов, моделирование использования инструментов и визуальную резолюцию. Мы сравнивали результаты с другими моделями и экспериментами, чтобы оценить эффективность Veo 3 в этих задачах.
## Результаты
Модель Veo 3 демонстрировала возможности решения широкого спектра задач по визуальному пониманию, которые не были явно заложены в ее обучение. Например, она смогла определить объекты, определить рельеф и физические свойства, а также решать задачи, такие как мазе и симметрия. Особенно заметны явления нулевого запуска (zero-shot learning), когда модель смогла решать задачи, не имея предварительной информации об их решении. Наши результаты также показывают, что Veo 3 имеет потенциал для моделирования визуальных задач в целом, что делает её эффективной в различных визуальных исследованиях.
## Значимость
Наши результаты показывают, что видеомодели, использующие глубокое обучение на видеоданных, могут быть применены во многих областях визуального понимания, основываясь на их возможности решать задачи, не будучи явно обученными к ним. Это демонстрирует рост видеомоделей как крепких, генеральных моделей для визуального понимания. Помимо этого, Veo 3 демонстрирует возможность видеомоделей для решения задач, которые требуют визуальной разборки и моделирования. Это может быть применено в различных областях, таких как поиск изображений, анализ медиа,
Annotation:
The remarkable zero-shot capabilities of Large Language Models (LLMs) have
propelled natural language processing from task-specific models to unified,
generalist foundation models. This transformation emerged from simple
primitives: large, generative models trained on web-scale data. Curiously, the
same primitives apply to today's generative video models. Could video models be
on a trajectory towards general-purpose vision understanding, much like LLMs
developed general-purpose language understa...
Авторы:
Huang Fang, Mengxi Zhang, Heng Dong, Wei Li, Zixuan Wang, Qifeng Zhang, Xueyun Tian, Yucheng Hu, Hang Li
## Контекст
В последние годы возрос внимание к развитию интеллектуальных роботов, которые могут справляться с многозадачностью, общаться с пользователями и выполнять требовательные задачи в реальном мире. Однако существуют несколько значимых проблем. На сегодняшний день, большинство роботов взаимодействуют с пользователями через специализированные модели, некоторые из которых нацелены на задачи природного языка, но не всегда в состоянии распознавать контекст. Кроме того, многие роботы не могут применительно к сложным задачам выполнить планирование с течением времени, что приводит к сбоям в выполнении задач.
Эта ситуация ставит в ответственность разработчиков роботов на поиск решений, которые позволят роботам более эффективно работать в составе интеллектуальных систем. Таким образом, появляется мотивация для разработки универсальной модели, которая может объединить природное взаимодействие, принятие решений и задание целей в одной архитектуре.
## Метод
Робот-система Robix представляет собой универсальную модель, включающую в себя мощные средства для визуального понимания, планирования задач и общения. Она динамически формирует набор минимальных команд для низкоуровневого управления и при этом может также запускать разговорные ответы для взаимодействия с человеком.
Robix работает в качестве высокоуровневого компонента в иерархической системе робота. Она обрабатывает задачи, начиная с простых до сложных, включая взаимодействие с человеком, планирование шагов выполнения, а также отслеживание контекста в течение общения.
Метод основывается на цепочке мыслей (chain-of-thought) и имеет трехэтапную стратегию обучения:
1. Дополнительное обучение для улучшения навыков визуального и спациального понимания, гамма-разметки и задач специфичных для задач;
2. Обучение на основе наблюдений для синтеза логики принятия решений и действий в интерактивных сценариях;
3. Регуляризация через учебный процесс реинфорсмента для повышения согласованности в решении задач и долгосрочного планирования.
## Результаты
Проводились различные эксперименты, включая оценку уровня успешности в интерактивном выполнении задач, который наблюдался в сценариях с открытыми, многоэтапными, ограниченными и прерванными инструкциями. Демонстрационные результаты показали, что Robix выполняет задачи гораздо эффективнее, чем существующие системы на основе GPT-4 и Gemini 2.5 Pro. Она успешно справляется с различными типами задач, включая:
- Обслуживание столов в ресторане;
- Покупка продуктов в магазине;
- Отбор продуктов, соответствующих определенным тре
Annotation:
We introduce Robix, a unified model that integrates robot reasoning, task
planning, and natural language interaction within a single vision-language
architecture. Acting as the high-level cognitive layer in a hierarchical robot
system, Robix dynamically generates atomic commands for the low-level
controller and verbal responses for human interaction, enabling robots to
follow complex instructions, plan long-horizon tasks, and interact naturally
with human within an end-to-end framework. Robix fu...
Авторы:
Zhuo Cao, Yunxiao Shi, Min Xu
Научная статья представляет SAM-LLM — новую гибридную модель, которая объединяет контекстное разумение Large Language Models (LLMs) с физической точностью моделей кинематики для прогнозирования траекторий смены полосы движения в автономном вождении. Основная идея заключается в том, чтобы приспособить LLM для предсказания ключевых физических параметров траектории (например, отклонение, продолжительность маневра, начальная латентная скорость и изменение горизонтальной скорости) вместо вывода координат в виде непрерывных векторов. Этот подход позволяет получить полную, непрерывную и физически правильную модель траектории, которая интерпретируемая и эффективна в ресурсах, сокращая размер выходных данных на 80% по сравнению с методами, основанными на координатах. Модель достигла высокой точности прогнозирования намерений — 98,73%, показав себя эквивалентной традиционным LLM-моделям, но с дополнительным преимуществом возможности точного объяснения результатов.
Annotation:
This work introduces SAM-LLM, a novel hybrid architecture that bridges the
gap between the contextual reasoning of Large Language Models (LLMs) and the
physical precision of kinematic lane change models for autonomous driving. The
system is designed for interpretable lane change trajectory prediction by
finetuning an LLM to output the core physical parameters of a trajectory model
instead of raw coordinates. For lane-keeping scenarios, the model predicts
discrete coordinates, but for lane change...
Показано 11 -
15
из 15 записей