📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Categorical Equivariant Deep Learning: Category-Equivariant Neural Networks and Universal Approximation Theorems

2025-11-26

Авторы:

Yoshihiro Maruyama

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We develop a theory of category-equivariant neural networks (CENNs) that unifies group/groupoid-equivariant networks, poset/lattice-equivariant networks, graph and sheaf neural networks. Equivariance is formulated as naturality in a topological category with Radon measures, formulating linear and nonlinear layers in the categorical setup. We prove the equivariant universal approximation theorem in the general setting: the class of finite-depth CENNs is dense in the space of continuous equivarian...

ID: 2511.18417v1 cs.LG, cs.AI, cs.CV, cs.RO

arXiv PDF

📄 Fractional Diffusion Bridge Models

2025-11-06

Авторы:

Gabriel Nobis, Maximilian Springenberg, Arina Belova, Rembert Daems, Christoph Knochenhauer, Manfred Opper, Tolga Birdal, Wojciech Samek

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We present Fractional Diffusion Bridge Models (FDBM), a novel generative diffusion bridge framework driven by an approximation of the rich and non-Markovian fractional Brownian motion (fBM). Real stochastic processes exhibit a degree of memory effects (correlations in time), long-range dependencies, roughness and anomalous diffusion phenomena that are not captured in standard diffusion or bridge modeling due to the use of Brownian motion (BM). As a remedy, leveraging a recent Markovian approxima...

ID: 2511.01795v1 cs.LG, cs.AI, cs.CV, cs.RO, stat.ML

arXiv PDF

📄 Introspection in Learned Semantic Scene Graph Localisation

2025-10-10

Авторы:

Manshika Charvi Bissessur, Efimia Panagiotaki, Daniele De Martini

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

This work investigates how semantics influence localisation performance and robustness in a learned self-supervised, contrastive semantic localisation framework. After training a localisation network on both original and perturbed maps, we conduct a thorough post-hoc introspection analysis to probe whether the model filters environmental noise and prioritises distinctive landmarks over routine clutter. We validate various interpretability methods and present a comparative reliability analysis. I...

ID: 2510.07053v1 cs.LG, cs.AI, cs.CV, cs.RO, I.2.10; I.2.9; I.4.8; I.5.2; I.5.1

arXiv PDF

📄 Video models are zero-shot learners and reasoners

2025-09-26

Авторы:

Thaddäus Wiedemer, Yuxuan Li, Paul Vicol, Shixiang Shane Gu, Nick Matarese, Kevin Swersky, Been Kim, Priyank Jaini, Robert Geirhos

## Контекст В статье рассматривается роль видеомоделей в области общего понимания визуального мира. Несмотря на то, что Large Language Models (LLMs) стали синонимом универсального понимания языка, видеомодели оставались ограниченными в своих применениях. В последнее время видеомодели начали предпринимать похожие шаги к универсальному пониманию, воспринимая и моделируя визуальные данные. Однако их потенциал в области целенаправленного моделирования визуальных задач до сих пор остается неясным. Наша модель, Veo 3, демонстрирует замечательные возможности в решении задач, которым не было явной подготовки. Этот поиск показывает, что видеомодели могут стать генеральными моделями для визуального понимания, аналогично тому, как LLMs стали генеральными моделями для языкового понимания. ## Метод Мы использовали модель Veo 3, тренированную на данных видео, чтобы протестировать ее возможности в решении различных задач визуального понимания. Наша методика включала использование тестов, в которых модель должна была решать задачи, для которых она не была явно обучена. Тестов включали визуальное разбиение объектов, определение рельефа, редактирование изображений, понимание физических свойств, распознавание аффордансов объектов, моделирование использования инструментов и визуальную резолюцию. Мы сравнивали результаты с другими моделями и экспериментами, чтобы оценить эффективность Veo 3 в этих задачах. ## Результаты Модель Veo 3 демонстрировала возможности решения широкого спектра задач по визуальному пониманию, которые не были явно заложены в ее обучение. Например, она смогла определить объекты, определить рельеф и физические свойства, а также решать задачи, такие как мазе и симметрия. Особенно заметны явления нулевого запуска (zero-shot learning), когда модель смогла решать задачи, не имея предварительной информации об их решении. Наши результаты также показывают, что Veo 3 имеет потенциал для моделирования визуальных задач в целом, что делает её эффективной в различных визуальных исследованиях. ## Значимость Наши результаты показывают, что видеомодели, использующие глубокое обучение на видеоданных, могут быть применены во многих областях визуального понимания, основываясь на их возможности решать задачи, не будучи явно обученными к ним. Это демонстрирует рост видеомоделей как крепких, генеральных моделей для визуального понимания. Помимо этого, Veo 3 демонстрирует возможность видеомоделей для решения задач, которые требуют визуальной разборки и моделирования. Это может быть применено в различных областях, таких как поиск изображений, анализ медиа,

Annotation:

The remarkable zero-shot capabilities of Large Language Models (LLMs) have propelled natural language processing from task-specific models to unified, generalist foundation models. This transformation emerged from simple primitives: large, generative models trained on web-scale data. Curiously, the same primitives apply to today's generative video models. Could video models be on a trajectory towards general-purpose vision understanding, much like LLMs developed general-purpose language understa...

ID: 2509.20328v1 cs.LG, cs.AI, cs.CV, cs.RO

arXiv PDF