📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
📄 Agentic Design of Compositional Machines
2025-10-21Авторы:
Wenqian Zhang, Weiyang Liu, Zhen Liu
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
The design of complex machines stands as both a marker of human intelligence
and a foundation of engineering practice. Given recent advances in large
language models (LLMs), we ask whether they, too, can learn to create. We
approach this question through the lens of compositional machine design: a task
in which machines are assembled from standardized components to meet functional
demands like locomotion or manipulation in a simulated physical environment.
With this simplification, machine desig...
📄 Agentic Design of Compositional Machines
2025-10-18Авторы:
Wenqian Zhang, Weiyang Liu, Zhen Liu
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
The design of complex machines stands as both a marker of human intelligence
and a foundation of engineering practice. Given recent advances in large
language models (LLMs), we ask whether they, too, can learn to create. We
approach this question through the lens of compositional machine design: a task
in which machines are assembled from standardized components to meet functional
demands like locomotion or manipulation in a simulated physical environment. To
support this investigation, we intro...
Авторы:
Haithem Turki, Qi Wu, Xin Kang, Janick Martinez Esturo, Shengyu Huang, Ruilong Li, Zan Gojcic, Riccardo de Lutio
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Rigorous testing of autonomous robots, such as self-driving vehicles, is
essential to ensure their safety in real-world deployments. This requires
building high-fidelity simulators to test scenarios beyond those that can be
safely or exhaustively collected in the real-world. Existing neural rendering
methods based on NeRF and 3DGS hold promise but suffer from low rendering
speeds or can only render pinhole camera models, hindering their suitability to
applications that commonly require high-dist...
Авторы:
Denis Zavadski, Damjan Kalšan, Tim Küchler, Haebom Lee, Stefan Roth, Carsten Rother
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Synthetic datasets are widely used for training urban scene recognition
models, but even highly realistic renderings show a noticeable gap to real
imagery. This gap is particularly pronounced when adapting to a specific target
domain, such as Cityscapes, where differences in architecture, vegetation,
object appearance, and camera characteristics limit downstream performance.
Closing this gap with more detailed 3D modelling would require expensive asset
and scene design, defeating the purpose of ...
Авторы:
Sam Sartor, Pieter Peers
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Large pretrained diffusion models can provide strong priors beneficial for
many graphics applications. However, generative applications such as neural
rendering and inverse methods such as SVBRDF estimation and intrinsic image
decomposition require additional input or output channels. Current solutions
for channel expansion are often application specific and these solutions can be
difficult to adapt to different diffusion models or new tasks. This paper
introduces Teamwork: a flexible and effici...
Авторы:
Gaurav Parmar, Or Patashnik, Daniil Ostashev, Kuan-Chieh Wang, Kfir Aberman, Srinivasa Narasimhan, Jun-Yan Zhu
#### Контекст
Generative models, такие как системы текст-к-изображению и изображение-к-изображению, стали основополагающими в создании изображений и видео. Однако, несмотря на их продвинутые возможности, эти модели обычно работают в режиме индивидуального выбора пользователя, то есть каждая выдаваемая картинка — это отдельный элемент. В реальной жизни пользователи часто хотят получить несколько вариантов изображений для одного запроса, чтобы сравнивать их и выбирать наиболее подходящий. Такая ситуация возникает, например, при создании разнообразных вариантов для логотипа или когда необходимо выбрать несколько изображений для создания видеосюжета. Недостаток такого подхода заключается в том, что стандартные методы выбора семплов приводят к повторяющимся или недостаточно инновационным результатам. Данная работа адресует эту проблему, предлагая метод, который улучшает как качество, так и разнообразие группы изображений, генерируемых одной моделью.
#### Метод
Мы предлагаем метод **scalable group inference**, который преобразует задачу выбора группы изображений в задачу квадратичного целочисленного задания. В этой модели каждое изображение — это узел графа, а кандидаты выбираются так, чтобы обеспечить максимальное качество каждого отдельного изображения (это — unary term) и максимальное разнообразие в группе изображений (это — binary term). Чтобы увеличить эффективность вычислений, мы применяем **progressive pruning**, т. е. постепенно удаляем кандидатов, используя начальные предсказания модели. Эта техника позволяет нашему методу работать даже при очень больших группах кандидатов, что делает его применимым для задач, где требуется выбирать множество генерируемых изображений.
#### Результаты
Мы провели ряд экспериментов на различных задачах: текст-к-изображению, изображение-к-изображению, построении групп изображений по запросу пользователя и видеогенерации. Мы сравнивали нашу модель с базовым подходом индивидуального выбора и с некоторыми подходами, работающими на уровне генерации. Наши результаты показали, что **scalable group inference** увеличивает как качество, так и разнообразие группы изображений, по сравнению с основными методами. Например, для текст-к-изображению генерируемые группы оказались более разнообразными и творческими, а для видеогенерации — более координированными в целом потоке.
#### Значимость
Наш метод может быть применен в различных областях, где требуется высокое разнообразие и качество изображений. Например, он может использоваться в творческом дизайне, видеоредактировании, реалистичной видеогенерации. Этот подход улучшает выбор пользова
Annotation:
Generative models typically sample outputs independently, and recent
inference-time guidance and scaling algorithms focus on improving the quality
of individual samples. However, in real-world applications, users are often
presented with a set of multiple images (e.g., 4-8) for each prompt, where
independent sampling tends to lead to redundant results, limiting user choices
and hindering idea exploration. In this work, we introduce a scalable group
inference method that improves both the diversi...
Авторы:
Md Ashiqur Rahman, Chiao-An Yang, Michael N. Cheng, Lim Jun Hao, Jeremiah Jiang, Teck-Yian Lim, Raymond A. Yeh
## Контекст
Scale variation является одной из фундаментальных проблем в области компьютерного зрения. Объекты одного класса могут различаться по размеру, а размер, воспринимаемый зрительно, также зависит от дистанции до камеры. Эти различия локальны для объектов, т.е., разные размеры объектов могут изменяться по-разному внутри одного и того же изображения. Для эффективного управления этими различиями мы предлагаем глубокий инструмент нормализации (DEC), который позволяет улучшить локальную согласованность масштабов в модели. Это решение может легко добавляться к существующим архитектурам и использоваться с предобученными моделями. Мы продемонстрировали, что на бенчмарке ImageNet, DEC улучшает качество моделей и локальную согласованность масштабов во всех четырех анализируемых моделях, включая ViT, DeiT, Swin и BEiT. Наш код доступен по адресу: https://github.com/ashiq24/local-scale-equivariance.
## Метод
Мы предлагаем глубокую операцию балансировки масштабов (DEC), которая использует динамический иглауровень, чтобы обеспечивать локальную согласованность масштабов. Модель DEC основывается на глубоком стеке статического и глубоком стеке динамического решений. Мы используем нейросетевые техники, чтобы включить в DEC функции информации о масштабе, чтобы предотвратить потерю локальных сдвигов. Также мы провели тщетное уточнение, чтобы оптимизировать DEC для включенных моделей.
## Результаты
Мы провели эксперименты на бенчмарке ImageNet, используя четыре предобученных модели: ViT, DeiT, Swin и BEiT. Мы установили, что DEC улучшает точность классификации и согласованность масштабов во всех моделях. Например, на ViT-Base, DEC улучшил точность на 1.2%, при этом сохранив локальную согласованность масштабов. Были проведены дополнительные эксперименты на других данных, подтверждающие эффективность DEC на различных задачах.
## Значимость
DEC может применяться во многих областях компьютерного зрения, включая обнаружение объектов, обозначение сегментов, а также работу с видео. Это решение имеет преимущества в том, что оно легко интегрируется с существующими моделями и не требует изменения их структуры. DEC влияет на модели, улучшая их точность и локальную согласованность, что может оказаться полезным для задач, где точность классификации и консистентность масштабов критичны.
## Выводы
Мы предложили новый подход для улучшения локальной согласованности масштабов в компьютерном зрении. Наши эксперименты показали, что DEC может легко внедряться в существующие модели и повышать их точность и согласованность. Мы полагаем, что будущие исследова
Annotation:
Scale variation is a fundamental challenge in computer vision. Objects of the
same class can have different sizes, and their perceived size is further
affected by the distance from the camera. These variations are local to the
objects, i.e., different object sizes may change differently within the same
image. To effectively handle scale variations, we present a deep equilibrium
canonicalizer (DEC) to improve the local scale equivariance of a model. DEC can
be easily incorporated into existing ne...
Авторы:
David Dinkevich, Matan Levy, Omri Avrahami, Dvir Samuel, Dani Lischinski
#### Контекст
Описание области исследования: генерация выразительных сторибордов на основе естественного языка — это сложная задача, требующая учета многих аспектов визуальной истории, таких как специфика сюжета, пауза, размеры и расположение панелей, а также их внутренняя структура. Однако предыдущие подходы либо ограничивались описанием лиц и объектов, либо требовали значительного обучения и моделей с тяжелым размером.
Мотивация: Это привело к недостатку в гибкости и динамичности генерируемых сторибордов. Нужен подход, который бы учёл эти ограничения, без необходимости полного обучения, и позволил бы улучшить соблюдение контекста и логики в генерируемых работах.
#### Метод
**Описание методологии:**
Story2Board — это новая простая фреймворк, не требующий обучения модели. Он включает в себя два основных компонента:
1. **Latent Panel Anchoring** — это система, которая позволяет сохранять взаимосвязь между персонажами и сценами в разных панелях.
2. **Reciprocal Attention Value Mixing** — это механизм, который смешивает визуальные признаки между сильно связанными токенами, чтобы улучшить логическую консистенцию и динамику старости.
**Технические решения и архитектура:**
Framework использует существующие модели разметки рассказов (off-the-shelf language model), которые преобразуют свободный текст в пространство промежуточных проявлений. Затем эти проявления подаются на вход модели Diffusion, которая генерирует выходные сториборды.
#### Результаты
**Эксперименты и данные:**
Использовались несколько различных тестовых баз данных, включая различные жанры рассказов. Данные были собраны для оценки различных аспектов генерируемых сторибордов:
- Консистенции персонажей и сцен.
- Динамики и разнообразия визуальных элементов.
- Логической последовательности в генерируемом результате.
**Результаты:**
На тестируемых базах данных, Story2Board показал высокую степень динамичности и консистентности по сравнению с другими подходам. Улучшения были заметны в сценах, где требовалась глубокая контекстная интерпретация и выразительность.
#### Значимость
**Области применения:**
Story2Board может использоваться в различных областях, таких как:
- Генерация выразительных комиксов и сериалов.
- Обучение глубокого понимания текста в контексте сюжетных работ.
- Автоматическое создание визуальных рассказов для развлекательных и образовательных целей.
**Преимущества:**
Его легковесная архитектура и отсутствие необходимости в обучении делают его более эффективным по сравнению с обучаемыми моделями.
**Потенциальное влияние:**
Этот подход мож
Annotation:
We present Story2Board, a training-free framework for expressive storyboard
generation from natural language. Existing methods narrowly focus on subject
identity, overlooking key aspects of visual storytelling such as spatial
composition, background evolution, and narrative pacing. To address this, we
introduce a lightweight consistency framework composed of two components:
Latent Panel Anchoring, which preserves a shared character reference across
panels, and Reciprocal Attention Value Mixing, ...
Показано 11 -
18
из 18 записей