📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Joe Suk, Yaqi Duan
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Reinforcement Learning with Verifiable Rewards (RLVR), which uses simple
binary feedback to post-train large language models, has shown significant
empirical success. However, a principled understanding of why it works has been
lacking. This paper builds a theoretical foundation for RLVR by analyzing its
training process at both the full-response (trajectory) and token levels.
Central to our analysis is a quantity called the Gradient Gap, which formalizes
the direction of improvement from low-re...
Авторы:
Di Zhang
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
The stochastic multi-armed bandit (MAB) problem is one of the most
fundamental models in sequential decision-making, with the core challenge being
the trade-off between exploration and exploitation. Although algorithms such as
Upper Confidence Bound (UCB) and Thompson Sampling, along with their regret
theories, are well-established, existing analyses primarily operate from a
time-domain and cumulative regret perspective, struggling to characterize the
dynamic nature of the learning process. This...
Авторы:
Joe Suk, Yaqi Duan
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Reinforcement Learning with Verifiable Rewards (RLVR), which uses simple
binary feedback to post-train large language models, has shown significant
empirical success. However, a principled understanding of why it works has been
lacking. This paper builds a theoretical foundation for RLVR by analyzing its
training process at both the full-response (trajectory) and token levels.
Central to our analysis is a quantity called the Gradient Gap, which formalizes
the direction of improvement from low-re...
📄 Multi-head Transformers Provably Learn Symbolic Multi-step Reasoning via Gradient Descent
2025-08-13Авторы:
Tong Yang, Yu Huang, Yingbin Liang, Yuejie Chi
## Контекст
Статья рассматривает многошаговый символический рассуждений и их реализацию в контексте трансформеров. Она выделяет проблему недостаточного понимания механизмов, позволяющих трансформерам решать такие задачи. Известно, что трансформеры эффективно работают в авторегрессионных моделях, но теоретическая поддержка их успеха в задачах многошагового рассуждения остается недостаточно изучена. Особое внимание уделяется проблемам путеискания в деревьях, в том числе логике решения задач в формате "путь от цели к корню" и "путь от корня к цели".
## Метод
Авторы используют многошаговые трансформеры с авторегрессией для решения задач путеискания в деревьях. Основной акцент ставится на двухфазном подходе: вывод пути от цели к корню и его обратное преобразование в путь от корня к цели. Анализ основывается на динамике градиентного оптимизационного процесса. Моделирование проводится в условиях заданного количества слоёв и аттенционных голов. Изучаются взаимодействия между аттенционными головами и их способность решать задачи структурированными подходами.
## Результаты
Выполнены эксперименты с различными моделями в задачах путеискания. Для однослойных трансформеров получены теоретические гарантии на успех решения задач символического рассуждения с обучением и общедоступностью решений для неизвестных деревьев. Особое внимание уделено процессу специализации аттенционных голов в различных этапах задачи. Проведены исследования обучения одношаговых и двухшаговых процедур, показавших, что даже глубокие трансформеры могут решать задачи с помощью простых шагов.
## Значимость
Результаты статьи имеют значимость для области машинного обучения, а именно для изучения способов решения сложных задач с помощью трансформеров. Они открывают пути для использования многошаговых моделей в задачах автоматического решения задач, включая путеискание в деревьях и поиск алгоритмических решений. Это демонстрирует возможность трансформеров решать задачи, которые традиционно требуют более глубоких архитектур.
## Выводы
Основные достижения статьи заключаются в доказательстве возможности решения многошаговых задач символического рассуждения с помощью трансформеров. Доказана специализация аттенционных голов в различных фазах решения задач. Будущие исследования будут сконцентрированы на углублении теоретических анализов и расширении моделей для решения более сложных задач многошагового рассуждения.
Annotation:
Transformers have demonstrated remarkable capabilities in multi-step
reasoning tasks. However, understandings of the underlying mechanisms by which
they acquire these abilities through training remain limited, particularly from
a theoretical standpoint. This work investigates how transformers learn to
solve symbolic multi-step reasoning problems through chain-of-thought
processes, focusing on path-finding in trees. We analyze two intertwined tasks:
a backward reasoning task, where the model outp...