📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Wenqian Zhang, Weiyang Liu, Zhen Liu

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
The design of complex machines stands as both a marker of human intelligence and a foundation of engineering practice. Given recent advances in large language models (LLMs), we ask whether they, too, can learn to create. We approach this question through the lens of compositional machine design: a task in which machines are assembled from standardized components to meet functional demands like locomotion or manipulation in a simulated physical environment. With this simplification, machine desig...
ID: 2510.14980v2 cs.AI, cs.CL, cs.CV, cs.GR, cs.LG
Авторы:

Wenqian Zhang, Weiyang Liu, Zhen Liu

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
The design of complex machines stands as both a marker of human intelligence and a foundation of engineering practice. Given recent advances in large language models (LLMs), we ask whether they, too, can learn to create. We approach this question through the lens of compositional machine design: a task in which machines are assembled from standardized components to meet functional demands like locomotion or manipulation in a simulated physical environment. To support this investigation, we intro...
ID: 2510.14980v1 cs.AI, cs.CL, cs.CV, cs.GR, cs.LG
Авторы:

Haithem Turki, Qi Wu, Xin Kang, Janick Martinez Esturo, Shengyu Huang, Ruilong Li, Zan Gojcic, Riccardo de Lutio

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Rigorous testing of autonomous robots, such as self-driving vehicles, is essential to ensure their safety in real-world deployments. This requires building high-fidelity simulators to test scenarios beyond those that can be safely or exhaustively collected in the real-world. Existing neural rendering methods based on NeRF and 3DGS hold promise but suffer from low rendering speeds or can only render pinhole camera models, hindering their suitability to applications that commonly require high-dist...
ID: 2510.12901v2 cs.CV, cs.GR, cs.LG, cs.RO
Авторы:

Denis Zavadski, Damjan Kalšan, Tim Küchler, Haebom Lee, Stefan Roth, Carsten Rother

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Synthetic datasets are widely used for training urban scene recognition models, but even highly realistic renderings show a noticeable gap to real imagery. This gap is particularly pronounced when adapting to a specific target domain, such as Cityscapes, where differences in architecture, vegetation, object appearance, and camera characteristics limit downstream performance. Closing this gap with more detailed 3D modelling would require expensive asset and scene design, defeating the purpose of ...
ID: 2510.11567v1 cs.CV, cs.GR, cs.LG
Авторы:

Sam Sartor, Pieter Peers

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Large pretrained diffusion models can provide strong priors beneficial for many graphics applications. However, generative applications such as neural rendering and inverse methods such as SVBRDF estimation and intrinsic image decomposition require additional input or output channels. Current solutions for channel expansion are often application specific and these solutions can be difficult to adapt to different diffusion models or new tasks. This paper introduces Teamwork: a flexible and effici...
ID: 2510.05532v1 cs.CV, cs.GR, cs.LG
Авторы:

Gaurav Parmar, Or Patashnik, Daniil Ostashev, Kuan-Chieh Wang, Kfir Aberman, Srinivasa Narasimhan, Jun-Yan Zhu

#### Контекст Generative models, такие как системы текст-к-изображению и изображение-к-изображению, стали основополагающими в создании изображений и видео. Однако, несмотря на их продвинутые возможности, эти модели обычно работают в режиме индивидуального выбора пользователя, то есть каждая выдаваемая картинка — это отдельный элемент. В реальной жизни пользователи часто хотят получить несколько вариантов изображений для одного запроса, чтобы сравнивать их и выбирать наиболее подходящий. Такая ситуация возникает, например, при создании разнообразных вариантов для логотипа или когда необходимо выбрать несколько изображений для создания видеосюжета. Недостаток такого подхода заключается в том, что стандартные методы выбора семплов приводят к повторяющимся или недостаточно инновационным результатам. Данная работа адресует эту проблему, предлагая метод, который улучшает как качество, так и разнообразие группы изображений, генерируемых одной моделью. #### Метод Мы предлагаем метод **scalable group inference**, который преобразует задачу выбора группы изображений в задачу квадратичного целочисленного задания. В этой модели каждое изображение — это узел графа, а кандидаты выбираются так, чтобы обеспечить максимальное качество каждого отдельного изображения (это — unary term) и максимальное разнообразие в группе изображений (это — binary term). Чтобы увеличить эффективность вычислений, мы применяем **progressive pruning**, т. е. постепенно удаляем кандидатов, используя начальные предсказания модели. Эта техника позволяет нашему методу работать даже при очень больших группах кандидатов, что делает его применимым для задач, где требуется выбирать множество генерируемых изображений. #### Результаты Мы провели ряд экспериментов на различных задачах: текст-к-изображению, изображение-к-изображению, построении групп изображений по запросу пользователя и видеогенерации. Мы сравнивали нашу модель с базовым подходом индивидуального выбора и с некоторыми подходами, работающими на уровне генерации. Наши результаты показали, что **scalable group inference** увеличивает как качество, так и разнообразие группы изображений, по сравнению с основными методами. Например, для текст-к-изображению генерируемые группы оказались более разнообразными и творческими, а для видеогенерации — более координированными в целом потоке. #### Значимость Наш метод может быть применен в различных областях, где требуется высокое разнообразие и качество изображений. Например, он может использоваться в творческом дизайне, видеоредактировании, реалистичной видеогенерации. Этот подход улучшает выбор пользова
Annotation:
Generative models typically sample outputs independently, and recent inference-time guidance and scaling algorithms focus on improving the quality of individual samples. However, in real-world applications, users are often presented with a set of multiple images (e.g., 4-8) for each prompt, where independent sampling tends to lead to redundant results, limiting user choices and hindering idea exploration. In this work, we introduce a scalable group inference method that improves both the diversi...
ID: 2508.15773v1 cs.CV, cs.GR, cs.LG
Авторы:

Md Ashiqur Rahman, Chiao-An Yang, Michael N. Cheng, Lim Jun Hao, Jeremiah Jiang, Teck-Yian Lim, Raymond A. Yeh

## Контекст Scale variation является одной из фундаментальных проблем в области компьютерного зрения. Объекты одного класса могут различаться по размеру, а размер, воспринимаемый зрительно, также зависит от дистанции до камеры. Эти различия локальны для объектов, т.е., разные размеры объектов могут изменяться по-разному внутри одного и того же изображения. Для эффективного управления этими различиями мы предлагаем глубокий инструмент нормализации (DEC), который позволяет улучшить локальную согласованность масштабов в модели. Это решение может легко добавляться к существующим архитектурам и использоваться с предобученными моделями. Мы продемонстрировали, что на бенчмарке ImageNet, DEC улучшает качество моделей и локальную согласованность масштабов во всех четырех анализируемых моделях, включая ViT, DeiT, Swin и BEiT. Наш код доступен по адресу: https://github.com/ashiq24/local-scale-equivariance. ## Метод Мы предлагаем глубокую операцию балансировки масштабов (DEC), которая использует динамический иглауровень, чтобы обеспечивать локальную согласованность масштабов. Модель DEC основывается на глубоком стеке статического и глубоком стеке динамического решений. Мы используем нейросетевые техники, чтобы включить в DEC функции информации о масштабе, чтобы предотвратить потерю локальных сдвигов. Также мы провели тщетное уточнение, чтобы оптимизировать DEC для включенных моделей. ## Результаты Мы провели эксперименты на бенчмарке ImageNet, используя четыре предобученных модели: ViT, DeiT, Swin и BEiT. Мы установили, что DEC улучшает точность классификации и согласованность масштабов во всех моделях. Например, на ViT-Base, DEC улучшил точность на 1.2%, при этом сохранив локальную согласованность масштабов. Были проведены дополнительные эксперименты на других данных, подтверждающие эффективность DEC на различных задачах. ## Значимость DEC может применяться во многих областях компьютерного зрения, включая обнаружение объектов, обозначение сегментов, а также работу с видео. Это решение имеет преимущества в том, что оно легко интегрируется с существующими моделями и не требует изменения их структуры. DEC влияет на модели, улучшая их точность и локальную согласованность, что может оказаться полезным для задач, где точность классификации и консистентность масштабов критичны. ## Выводы Мы предложили новый подход для улучшения локальной согласованности масштабов в компьютерном зрении. Наши эксперименты показали, что DEC может легко внедряться в существующие модели и повышать их точность и согласованность. Мы полагаем, что будущие исследова
Annotation:
Scale variation is a fundamental challenge in computer vision. Objects of the same class can have different sizes, and their perceived size is further affected by the distance from the camera. These variations are local to the objects, i.e., different object sizes may change differently within the same image. To effectively handle scale variations, we present a deep equilibrium canonicalizer (DEC) to improve the local scale equivariance of a model. DEC can be easily incorporated into existing ne...
ID: 2508.14187v1 cs.CV, cs.GR, cs.LG
Авторы:

David Dinkevich, Matan Levy, Omri Avrahami, Dvir Samuel, Dani Lischinski

#### Контекст Описание области исследования: генерация выразительных сторибордов на основе естественного языка — это сложная задача, требующая учета многих аспектов визуальной истории, таких как специфика сюжета, пауза, размеры и расположение панелей, а также их внутренняя структура. Однако предыдущие подходы либо ограничивались описанием лиц и объектов, либо требовали значительного обучения и моделей с тяжелым размером. Мотивация: Это привело к недостатку в гибкости и динамичности генерируемых сторибордов. Нужен подход, который бы учёл эти ограничения, без необходимости полного обучения, и позволил бы улучшить соблюдение контекста и логики в генерируемых работах. #### Метод **Описание методологии:** Story2Board — это новая простая фреймворк, не требующий обучения модели. Он включает в себя два основных компонента: 1. **Latent Panel Anchoring** — это система, которая позволяет сохранять взаимосвязь между персонажами и сценами в разных панелях. 2. **Reciprocal Attention Value Mixing** — это механизм, который смешивает визуальные признаки между сильно связанными токенами, чтобы улучшить логическую консистенцию и динамику старости. **Технические решения и архитектура:** Framework использует существующие модели разметки рассказов (off-the-shelf language model), которые преобразуют свободный текст в пространство промежуточных проявлений. Затем эти проявления подаются на вход модели Diffusion, которая генерирует выходные сториборды. #### Результаты **Эксперименты и данные:** Использовались несколько различных тестовых баз данных, включая различные жанры рассказов. Данные были собраны для оценки различных аспектов генерируемых сторибордов: - Консистенции персонажей и сцен. - Динамики и разнообразия визуальных элементов. - Логической последовательности в генерируемом результате. **Результаты:** На тестируемых базах данных, Story2Board показал высокую степень динамичности и консистентности по сравнению с другими подходам. Улучшения были заметны в сценах, где требовалась глубокая контекстная интерпретация и выразительность. #### Значимость **Области применения:** Story2Board может использоваться в различных областях, таких как: - Генерация выразительных комиксов и сериалов. - Обучение глубокого понимания текста в контексте сюжетных работ. - Автоматическое создание визуальных рассказов для развлекательных и образовательных целей. **Преимущества:** Его легковесная архитектура и отсутствие необходимости в обучении делают его более эффективным по сравнению с обучаемыми моделями. **Потенциальное влияние:** Этот подход мож
Annotation:
We present Story2Board, a training-free framework for expressive storyboard generation from natural language. Existing methods narrowly focus on subject identity, overlooking key aspects of visual storytelling such as spatial composition, background evolution, and narrative pacing. To address this, we introduce a lightweight consistency framework composed of two components: Latent Panel Anchoring, which preserves a shared character reference across panels, and Reciprocal Attention Value Mixing, ...
ID: 2508.09983v1 cs.CV, cs.GR, cs.LG
Показано 11 - 18 из 18 записей