📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 0
Последнее обновление: сегодня
Авторы:
Javad Aliakbari, Johan Östman, Ashkan Panahi, Alexandre Graell i Amat
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
We consider the problem of federated learning (FL) with graph-structured data
distributed across multiple clients. In particular, we address the prevalent
scenario of interconnected subgraphs, where interconnections between clients
significantly influence the learning process. Existing approaches suffer from
critical limitations, either requiring the exchange of sensitive node
embeddings, thereby posing privacy risks, or relying on
computationally-intensive steps, which hinders scalability. To t...
Авторы:
Di Wu, Chengshuai Shi, Jing Yang, Cong Shen
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Reinforcement Learning from Human Feedback (RLHF) has emerged as a key
technique for post-training large language models. Despite its empirical
success, the theoretical understanding of RLHF is still limited, as learning
the KL-regularized target with only preference feedback poses additional
challenges compared with canonical RL. Existing works mostly study the
reward-based Bradley-Terry (BT) preference model, and extend classical designs
utilizing optimism or pessimism. This work, instead, con...
Авторы:
Siamak Ghodsi, Amjad Seyedi, Tai Le Quy, Fariba Karimi, Eirini Ntoutsi
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Fair graph clustering seeks partitions that respect network structure while
maintaining proportional representation across sensitive groups, with
applications spanning community detection, team formation, resource allocation,
and social network analysis. Many existing approaches enforce rigid constraints
or rely on multi-stage pipelines (e.g., spectral embedding followed by
$k$-means), limiting trade-off control, interpretability, and scalability. We
introduce \emph{DFNMF}, an end-to-end deep no...
Авторы:
Giulio Ruffini
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
In the algorithmic (Kolmogorov) view, agents are programs that track and
compress sensory streams using generative programs. We propose a framework
where the relevant structural prior is simplicity (Solomonoff) understood as
\emph{compositional symmetry}: natural streams are well described by (local)
actions of finite-parameter Lie pseudogroups on geometrically and topologically
complex low-dimensional configuration manifolds (latent spaces). Modeling the
agent as a generic neural dynamical syst...
Авторы:
Yuda Bi, Ying Zhu, Vince D Calhoun
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
We present a theoretical framework that extends classical information theory
to finite and structured systems by redefining redundancy as a fundamental
property of information organization rather than inefficiency. In this
framework, redundancy is expressed as a general family of informational
divergences that unifies multiple classical measures, such as mutual
information, chi-squared dependence, and spectral redundancy, under a single
geometric principle. This reveals that these traditional qu...
Авторы:
Joe Suk, Yaqi Duan
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Reinforcement Learning with Verifiable Rewards (RLVR), which uses simple
binary feedback to post-train large language models, has shown significant
empirical success. However, a principled understanding of why it works has been
lacking. This paper builds a theoretical foundation for RLVR by analyzing its
training process at both the full-response (trajectory) and token levels.
Central to our analysis is a quantity called the Gradient Gap, which formalizes
the direction of improvement from low-re...
Авторы:
Di Zhang
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
The stochastic multi-armed bandit (MAB) problem is one of the most
fundamental models in sequential decision-making, with the core challenge being
the trade-off between exploration and exploitation. Although algorithms such as
Upper Confidence Bound (UCB) and Thompson Sampling, along with their regret
theories, are well-established, existing analyses primarily operate from a
time-domain and cumulative regret perspective, struggling to characterize the
dynamic nature of the learning process. This...
Авторы:
Joe Suk, Yaqi Duan
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Reinforcement Learning with Verifiable Rewards (RLVR), which uses simple
binary feedback to post-train large language models, has shown significant
empirical success. However, a principled understanding of why it works has been
lacking. This paper builds a theoretical foundation for RLVR by analyzing its
training process at both the full-response (trajectory) and token levels.
Central to our analysis is a quantity called the Gradient Gap, which formalizes
the direction of improvement from low-re...
Авторы:
Kristina P. Sinaga, Arjun S. Nair
## Контекст
Post-hoc калибровка является важной методикой для улучшения доверительности прогнозов моделей машинного обучения. Она применяется для преобразования некорректных прогнозов модели в корректные вероятности. Несмотря на широкое распространение таких методов, их теоретическое понимание остается неполным, особенно при работе со сложными данными и архитектурами моделей. Одной из ключевых проблем является влияние качества признаков на калибровку. Ранее недостаточно уделялось внимания взаимосвязи между качеством признаков и калибровочными методами. В настоящей работе мы предлагаем глубокий анализ пост-хок калибровочных методов, включая Platt scaling и isotonic regression.
## Метод
Мы используем теоретический подход для анализа воздействия качества признаков на работу методов калибровки. Основные технические решения заключаются в формализации метрик калибровки и их связи с информативностью признаков. Мы разрабатываем алгоритмы для синтетических и реальных данных, которые позволяют изучить работу калибровки в условиях различного качества данных. Экспериментом становится измерение калибровочных массивов для различных уровней информативности признаков.
## Результаты
Мы проводим эксперименты на синтетических и реальных данных. На синтетических данных показывается, что информативность признаков сильно влияет на калибровочный результат. Если использовать только информативные признаки, то калибровочные методы показывают более высокую точность и доверительность. На реальных данных, включающих шумные признаки, мы отмечаем снижение калибровочной достоверности, однако методы isotonic regression и Platt scaling по-прежнему показывают лучшую устойчивость по сравнению с некалиброванной моделью.
## Значимость
Наши результаты имеют большое значение для практического применения калибровочных методов в различных областях, таких как здравоохранение, финансы и технологии. Мы демонстрируем, что навык калибровки может быть особенно важен в ситуациях с недостаточной информативностью признаков. Также мы показываем, что isotonic regression и Platt scaling могут быть оптимизированы для работы в условиях высокого шума в признаках. Эти полученные результаты могут помочь в выборе подхода к калибровке в зависимости от задачи и конкретных данных.
## Выводы
Мы демонстрируем, что качество признаков является ключевым фактором для успешной калибровки моделей машинного обучения. Наши результаты подчеркивают важность использования только информативных признаков и показывают, что isotonic regression и Platt scaling могут быть оптимальными в условиях высокой информативности. Будущие исследования будут сфокусированы на развитии более гибких и устойчивых методов кали
Annotation:
Post-hoc calibration methods are widely used to improve the reliability of
probabilistic predictions from machine learning models. Despite their
prevalence, a comprehensive theoretical understanding of these methods remains
elusive, particularly regarding their performance across different datasets and
model architectures. Input features play a crucial role in shaping model
predictions and, consequently, their calibration. However, the interplay
between feature quality and calibration performanc...
📄 The Alignment Bottleneck
2025-09-23Авторы:
Wenjun Cao
## Контекст
Современные большие языковые модели (БЯМ) показывают значительный прогресс в обработке естественного языка, однако столкнулись с проблемами в достижении полного соответствия заданным поведенческим целям. Эти отклонения связаны с ограниченной полнотой сигнала в процессе обучения, ограниченностью ресурсов в системах и особенностями архитектурных решений. Большая часть работ по ориентированию моделей стремится преодолеть эти проблемы, однако нехватка инструментов для точного определения и ограничения поведения моделей не позволяет достичь стабильных результатов.
Мотивируясь теорией ограниченной рациональности в экономике и психологии, мы рассматриваем языковую модель как систему, ограниченную в своих вычислительных возможностях. Наша модель определяет взаимосвязь между задачей и конфигурацией модели, подчеркивая трудности в достижении идеального соответствия заданным поведением. Этот подход позволяет увидеть, что проблемы в работе моделей могут быть связаны с ненадежностью взаимодействия между моделью и задачей, а не с недостатком модели.
## Метод
Мы предлагаем модель взаимодействия модели с задачей как двухэтапного процесса. В первой стадии модель принимает входные данные (например, запрос) и формирует представление (предсказание). Во второй стадии эти представления используются для формирования ответа. Мы предполагаем, что модель имеет ограниченные ресурсы для обработки данных и требует взаимодействия с окружающим миром, чтобы корректно выполнять задачи.
В модели включены различные методы оценки ограничений ресурсов и способов их оптимизации. Мы применяем методы машинного обучения, такие как стохастические градиенты, для оптимизации модели, а также методы теории информации для анализа взаимодействия модели с задачей. Также мы определяем границы системных ресурсов, например, памяти и вычислительных мощностей, чтобы определить допустимые диапазоны работы модели.
## Результаты
Мы провели эксперименты, используя различные модели и наборы данных, включая обучение модели на данных языкового моделирования и оценку ее результатов на тестах языкового понимания. Наши результаты показывают, что ограничение ресурсов модели может привести к ошибкам в задачах, требующих высокого уровня точности. Мы также показали, что при достаточном обучении модели на больших данных, ее поведение может стабилизироваться, но при этом могут возникать новые проблемы, такие как сильное уплотнение модели в своих представлениях.
Кроме того, мы проверили гипотезу, что модели могут становиться сильно зависимост от определенных регулярностей в данных, что
Annotation:
Large language models improve with scale, yet feedback-based alignment still
exhibits systematic deviations from intended behavior. Motivated by bounded
rationality in economics and cognitive science, we view judgment as
resource-limited and feedback as a constrained channel. On this basis, we model
the loop as a two-stage cascade $U \to H \to Y$ given $S$, with cognitive
capacity $C_{\text{cog}|S}$ and average total capacity
$\bar{C}_{\text{tot}|S}$. Our main result is a capacity-coupled Alignm...
Показано 1 -
10
из 14 записей