📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Joe Suk, Yaqi Duan

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Reinforcement Learning with Verifiable Rewards (RLVR), which uses simple binary feedback to post-train large language models, has shown significant empirical success. However, a principled understanding of why it works has been lacking. This paper builds a theoretical foundation for RLVR by analyzing its training process at both the full-response (trajectory) and token levels. Central to our analysis is a quantity called the Gradient Gap, which formalizes the direction of improvement from low-re...
ID: 2510.08539v2 cs.LG, cs.AI, cs.IT, math.IT, math.OC, stat.ML
Авторы:

Di Zhang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
The stochastic multi-armed bandit (MAB) problem is one of the most fundamental models in sequential decision-making, with the core challenge being the trade-off between exploration and exploitation. Although algorithms such as Upper Confidence Bound (UCB) and Thompson Sampling, along with their regret theories, are well-established, existing analyses primarily operate from a time-domain and cumulative regret perspective, struggling to characterize the dynamic nature of the learning process. This...
ID: 2510.08908v1 cs.LG, cs.AI, cs.IT, math.IT, math.OC, stat.ML, 68T05, 62L05, 94A12, I.2.6; G.3
Авторы:

Joe Suk, Yaqi Duan

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Reinforcement Learning with Verifiable Rewards (RLVR), which uses simple binary feedback to post-train large language models, has shown significant empirical success. However, a principled understanding of why it works has been lacking. This paper builds a theoretical foundation for RLVR by analyzing its training process at both the full-response (trajectory) and token levels. Central to our analysis is a quantity called the Gradient Gap, which formalizes the direction of improvement from low-re...
ID: 2510.08539v1 cs.LG, cs.AI, cs.IT, math.IT, math.OC, stat.ML
Авторы:

Tong Yang, Yu Huang, Yingbin Liang, Yuejie Chi

## Контекст Статья рассматривает многошаговый символический рассуждений и их реализацию в контексте трансформеров. Она выделяет проблему недостаточного понимания механизмов, позволяющих трансформерам решать такие задачи. Известно, что трансформеры эффективно работают в авторегрессионных моделях, но теоретическая поддержка их успеха в задачах многошагового рассуждения остается недостаточно изучена. Особое внимание уделяется проблемам путеискания в деревьях, в том числе логике решения задач в формате "путь от цели к корню" и "путь от корня к цели". ## Метод Авторы используют многошаговые трансформеры с авторегрессией для решения задач путеискания в деревьях. Основной акцент ставится на двухфазном подходе: вывод пути от цели к корню и его обратное преобразование в путь от корня к цели. Анализ основывается на динамике градиентного оптимизационного процесса. Моделирование проводится в условиях заданного количества слоёв и аттенционных голов. Изучаются взаимодействия между аттенционными головами и их способность решать задачи структурированными подходами. ## Результаты Выполнены эксперименты с различными моделями в задачах путеискания. Для однослойных трансформеров получены теоретические гарантии на успех решения задач символического рассуждения с обучением и общедоступностью решений для неизвестных деревьев. Особое внимание уделено процессу специализации аттенционных голов в различных этапах задачи. Проведены исследования обучения одношаговых и двухшаговых процедур, показавших, что даже глубокие трансформеры могут решать задачи с помощью простых шагов. ## Значимость Результаты статьи имеют значимость для области машинного обучения, а именно для изучения способов решения сложных задач с помощью трансформеров. Они открывают пути для использования многошаговых моделей в задачах автоматического решения задач, включая путеискание в деревьях и поиск алгоритмических решений. Это демонстрирует возможность трансформеров решать задачи, которые традиционно требуют более глубоких архитектур. ## Выводы Основные достижения статьи заключаются в доказательстве возможности решения многошаговых задач символического рассуждения с помощью трансформеров. Доказана специализация аттенционных голов в различных фазах решения задач. Будущие исследования будут сконцентрированы на углублении теоретических анализов и расширении моделей для решения более сложных задач многошагового рассуждения.
Annotation:
Transformers have demonstrated remarkable capabilities in multi-step reasoning tasks. However, understandings of the underlying mechanisms by which they acquire these abilities through training remain limited, particularly from a theoretical standpoint. This work investigates how transformers learn to solve symbolic multi-step reasoning problems through chain-of-thought processes, focusing on path-finding in trees. We analyze two intertwined tasks: a backward reasoning task, where the model outp...
ID: 2508.08222v1 cs.LG, cs.AI, cs.IT, math.IT, math.OC, stat.ML