📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Subjective Depth and Timescale Transformers: Learning Where and When to Compute

2025-11-27

Авторы:

Frederico Wieser, Martin Benfeghoul, Haitham Bou Ammar, Jun Wang, Zafeirios Fountas

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

The rigid, uniform allocation of computation in standard Transformer (TF) architectures can limit their efficiency and scalability, particularly for large-scale models and long sequences. Addressing this, we introduce Subjective Depth Transformers (SDT) and Subjective Timescale Transformers (STT), two distinct architectures that leverage Bayesian surprise signals to dynamically route computation, learning where and when to compute within decoder-only TFs. SDT augments a decoder-only stack with a...

ID: 2511.21408v1 cs.LG, cs.AI, cs.CL, cs.IT

arXiv PDF

📄 Towards a Measure of Algorithm Similarity

2025-11-04

Авторы:

Shairoz Sohail, Taher Ali

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Given two algorithms for the same problem, can we determine whether they are meaningfully different? In full generality, the question is uncomputable, and empirically it is muddied by competing notions of similarity. Yet, in many applications (such as clone detection or program synthesis) a pragmatic and consistent similarity metric is necessary. We review existing equivalence and similarity notions and introduce EMOC: An Evaluation-Memory-Operations-Complexity framework that embeds algorithm im...

ID: 2510.27063v1 cs.LG, cs.AI, cs.CL, cs.IT, cs.SE, math.IT, 68Qxx, 03Dxx, 90C29, I.2.6; F.4.1; D.2.4

arXiv PDF

📄 Measuring Uncertainty in Transformer Circuits with Effective Information Consistency

2025-09-11

Авторы:

Anatoly A. Krasnovsky

## Контекст Трансформеры — это мощная архитектура для обработки естественного языка, включая тексты, документы, поисковые запросы и многое другое. Однако одним из ключевых вопросов при использовании трансформеров является меру уверенности в их выводах. Недостаточная надежность может привести к значительным ошибкам в решениях, особенно в критически важных приложениях. Существуют несколько методов для измерения неопределенности в трансформерах, но они часто либо требуют многократного прохождения модели, либо не подходят для однослойного подхода. Это делает их неэффективными для анализа поведения трансформера в реальном времени. Необходима методика, которая была бы прозрачной, эффективной и позволяла оценить уверенность в реальном времени. ## Метод Мы предлагаем **Effective-Information Consistency Score (EICS)**, который представляет собой систему из двух частей: 1. **Нормализованная несовпадение-информации (Sheaf Inconsistency)** — вычисляется на основе матрицы производных (локальных Jacobians) и активаций сети. Это позволяет измерить несогласованность в данных. 2. **Прокси-мера для казуального развития (Gaussian EI)** — основана на форвардной модели сети. Она измеряет как надежность активаций, так и их развитие в пространстве весов. EICS — это **однопроходная** методика, где каждая единица входной информации явно определяется, чтобы сделать её интерпретацию максимально прозрачной. Наша архитектура является бело-ящиковой, что позволяет использовать её в реальном времени для измерения неопределенности. ## Результаты Мы проверили EICS на виртуальных задачах, моделях с параметрами, которые работают с реальными данными. Использовались различные типы данных, включая рекомендательные системы и синтез текста. Эксперименты показали, что EICS может быть использован для измерения неопределенности в сложных трансформерных многослойных системах. В результате: - **Точность** показала высокую степень совпадения с другими методами измерения неопределенности. - **Скорость** EICS была выше, чем у других методов, которые выполняют несколько проходов модели. - Наша методика доказала свою эффективность в режиме реального времени, что делает её подходящей для критически важных решений. ## Значимость Метод EICS может быть применён в различных областях, таких как: - **Критически важные приложения**, такие как медицинские модели и финансовые системы, где надежность решений критична. - **Оптимизация процессов**, например, при работе с рекомендательными системами. - **Мониторинг и диагностика** моделей, чтобы обеспечить их надежность в режиме реального времени. Важность EICS также заключается в

Annotation:

Mechanistic interpretability has identified functional subgraphs within large language models (LLMs), known as Transformer Circuits (TCs), that appear to implement specific algorithms. Yet we lack a formal, single-pass way to quantify when an active circuit is behaving coherently and thus likely trustworthy. Building on prior systems-theoretic proposals, we specialize a sheaf/cohomology and causal emergence perspective to TCs and introduce the Effective-Information Consistency Score (EICS). EICS...

ID: 2509.07149v1 cs.LG, cs.AI, cs.CL, cs.IT, math.IT

arXiv PDF