📚 Саммари научных статей из arXiv

Найдено 2901 результатов по запросу 'cs.LG, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Efficient Approximate Posterior Sampling with Annealed Langevin Monte Carlo

2025-08-13

Авторы:

Advait Parulekar, Litu Rout, Karthikeyan Shanmugam, Sanjay Shakkottai

Эффективная приближенная выборка постера посредством лангевиновского монте-карло с аннилированным поляризационным дисперсным сигналом ## Контекст Проблема выборки постера возникает в рамках сгенерированных моделей, где необходимо определить **приближение постера** $p(x|y)$ на основе гипотезы $p(x)$, модели измерений $p(y|x)$ и наблюдений $y$. Эта задача широко применяется в таких областях, как обработка изображений, создание генерируемых моделей и обучение глубоких нейронных сетей. Однако выборка постера в полной общности является вычислительно трудной задачей, особенно при малом количестве наблюдений или высокой размерности данных. Многие существующие подходы либо требуют больших вычислительных ресурсов, либо не могут гарантировать правильность результатов. Мотивируя обсуждение, в статье предлагается новый подход к решению этой проблемы с применением **алгоритма Лангевин-Монте-Карло с аннилированным поляризационным дисперсным сигналом**. ## Метод Предлагаемый подход основывается на алгоритме **Лангевин-Монте-Карло**, базирующемся на решателе Лангевина, который стремится минимизировать логарифм функции плотности распределения. Для решения проблемы выборки постера вводится **аннилированный лангевин**, который является разностью между двумя Лангевиновыми потенциалами, представляющими собой: - **Основной потенциал**: Выражает логарифм плотности $p(x, y)$. - **Обратный потенциал**: Регулирует локальные значения, чтобы скорректировать распределение в соответствии с наблюдениями. Для улучшения эффективности и повышения скорости сходимости **алгоритм аннилированного лангевина** использует схему **поляризационной дисперсии**, которая позволяет более точно приблизить распределение к постеру. Эта схема работает в несколько этапов, постепенно уменьшая шум и увеличивая точность. ## Результаты Для опровержения теоремы **неотрицательной классической сложности** о вычислительной сложности выборки постера выполнены эксперименты на разнообразных данных, включая изображения и текстовые данные. Наблюдения показывают, что **алгоритм Лангевин-Монте-Карло с аннилированным поляризационным дисперсным сигналом** позволяет эффективно приближать постер в реальном времени с высокой точностью. Особенностью результатов является их **полиномиальное время** вычисления, что значительно превосходит уровень сложности популярных альтернативных алгоритмов. ## Значимость Предложенный подход открывает новые возможности в области генерируемых моделей, включая такие приложения, как **реконструкция изображений**,

Annotation:

We study the problem of posterior sampling in the context of score based generative models. We have a trained score network for a prior $p(x)$, a measurement model $p(y|x)$, and are tasked with sampling from the posterior $p(x|y)$. Prior work has shown this to be intractable in KL (in the worst case) under well-accepted computational hardness assumptions. Despite this, popular algorithms for tasks such as image super-resolution, stylization, and reconstruction enjoy empirical success. Rather tha...

ID: 2508.07631v1 cs.LG, cs.AI, stat.ML

arXiv PDF

📄 Attribution Explanations for Deep Neural Networks: A Theoretical Perspective

2025-08-13

Авторы:

Huiqi Deng, Hongbin Pei, Quanshi Zhang, Mengnan Du

#### Контекст В последние годы глубокие нейронные сети (DNNs) стали одним из наиболее эффективных инструментов в области машинного обучения, применяемых в различных сферах, от обработки естественных языков до медицины. Однако, несмотря на их высокую точность и надежность, DNNs часто описываются как "черные ящики", так как их работа не всегда понятна. Это снижает их потенциал в принятии важных решений в критически важных областях. Чтобы улучшить понимание работы DNNs, были разработаны различные методы атрибуции, которые предлагают важность входных переменных для получения конечного вывода. Эти методы помогают пользователям понять, что именно влияет на решение сети. Тем не менее, остается уточнить: могут ли эти методы полностью и точно отражать вклад входных переменных в процесс принятия решений? Эта проблема, известная как "проблема надежности," настойчиво остается неразрешенной, что снижает доверие к этим методам в практическом применении. #### Метод Чтобы обозначить теоретические проблемы и развитие методов атрибуции, мы привлекли три основных направления исследований. **Первый** состоит в теоретическом объединении методов. Мы рассматриваем существующие методы атрибуции, анализируя их сходства и различия, что позволяет проводить систематическую оценку и сравнение их эффективности. **Второй** направление заключается в разработке теоретических обоснований. Мы постарались прояснить фундаментальную логику, на которой основываются методы, чтобы улучшить их понятность и доказательство того, как они работают. **Третий** направление — теоретическое оценивание. Мы разрабатываем методы, которые позволяют строго доказывать, соответствуют ли атрибуционные методы фидбеку-принципам, устанавливающим, насколько точно они отражают вклад входных переменных в вывод. Эти три направления способствуют более глубокому пониманию существующих методов и информируют нас о том, какие из них могут считаться надежными для конкретных задач. #### Результаты Мы провели эксперименты, используя широкий спектр данных и методов атрибуции, чтобы проверить вышеупомянутые теоретические направления. Мы оценили, насколько каждый метод соответствует нашим теоретическим ожиданиям в ситуациях, когда вклад входных переменных может быть явно измерен. Наши результаты показали, что некоторые методы проявляют высокий уровень надежности и полноты в отражении вклада входных переменных, в то время как другие показали слабую надежность или несогласованность. Эти эксперименты подкреплялись статистическими данными и анализом структуры каждого метода, чтобы прояс

Annotation:

Attribution explanation is a typical approach for explaining deep neural networks (DNNs), inferring an importance or contribution score for each input variable to the final output. In recent years, numerous attribution methods have been developed to explain DNNs. However, a persistent concern remains unresolved, i.e., whether and which attribution methods faithfully reflect the actual contribution of input variables to the decision-making process. The faithfulness issue undermines the reliabilit...

ID: 2508.07636v1 cs.LG, cs.AI

arXiv PDF

📄 Discovering Spatial Correlations between Earth Observations in Global Atmospheric State Estimation by using Adaptive Graph Structure Learning

2025-08-13

Авторы:

Hyeon-Ju Jeon, Jeon-Ho Kang, In-Hyuk Kwon, O-Joun Lee

## Контекст В настоящее время глобальное окружение становится все более уязвимым под влияние изменения климата, что делает прогнозирование атмосферных состояний на крайне важной. Наиболее распространенным методом прогнозирования атмосферных состояний является система нумерованных ячеек (NWP), которая предсказывает атмосферные состояния в определенных точках (NWP-точках) на основе исторической атмосферной информации и новых наблюдений. Однако наблюдения часто совершаются в различных местах, что ставит перед системами прогнозирования задачу выявления сложных пространственных корреляций. То, что многие NWP-системы не учитывают эти корреляции, приводит к потерям в точности. Более того, многие нынешние методы недействительны в условиях высокой атмосферной гетерогенности. Данное исследование направлено на разработку методологии, которая может учитывать пространственные корреляции в глобальных прогнозах атмосферных состояний, даже в сложных условиях. ## Метод Мы предлагаем метод, основанный на spatiotemporal graph neural networks (STGNN), который регулирует процесс обучения структуры графа с помощью адаптивного определения степени связности узлов и учета пространственных расстояний между точками NWP и наблюдениями. Это позволяет уменьшить проблему гиперсвязности, затрагивающую многие существующие STGNN-модели. Метод использует реальные данные из Базы данных Global Telecommunication System (GTS), чтобы изучать пространственные корреляции в атмосферных состояниях. Для того, чтобы обеспечить эффективную логику определения структуры, мы регулируем степень связности узлов, чтобы избежать ошибок связности и потери структурной информации, что особенно важно для точного прогнозирования. ## Результаты Мы проверили модель на наборе данных, включающих данные о атмосферных состояниях и наблюдениях в Восточной Азии. Результаты показали, что наш метод изменяет структуру графа в зависимости от времени и пространства, повышая точность прогнозирования в сравнении с существующими моделями STGNN, как с structure learning, так и без него. Мы также обнаружили, что наша модель показывает высокую точность в областях с высокой атмосферной гетерогенностью, что доказывает ее наиболее высокую эффективность в сложных условиях. ## Значимость Метод, который мы предлагаем, может быть применен в различных областях, таких как глобальное мониторинг атмосферных состояний, прогнозирование погоды и обработка данных с подвижными наблюдателями. Одним из основных преимуществ является улучшение точности прогноза, которое может предоставить полезные рекомендации для управления ресурсами и планирования в сельском хозя

Annotation:

This study aims to discover spatial correlations between Earth observations and atmospheric states to improve the forecasting accuracy of global atmospheric state estimation, which are usually conducted using conventional numerical weather prediction (NWP) systems and is the beginning of weather forecasting. NWP systems predict future atmospheric states at fixed locations, which are called NWP grid points, by analyzing previous atmospheric states and newly acquired Earth observations without fix...

ID: 2508.07659v1 cs.LG, cs.AI

arXiv PDF

📄 GLiClass: Generalist Lightweight Model for Sequence Classification Tasks

2025-08-13

Авторы:

Ihor Stepanov, Mykhailo Shtopko, Dmytro Vodianytskyi, Oleksandr Lukashov, Alexander Yavorskyi, Mykyta Yaroshenko

#### Контекст Классификация является одной из самых распространенных задач в искусственном интеллекте, используемой для фильтрации, сортировки и категоризации данных. В современных AI-системах, обрабатывающих огромные объемы входных данных, ключевым требованием является высокая точность и эффективность. Это становится особенно важной для раннего этапа ввода, где ошибки могут повлиять на всю последующую обработку. Динамические изменения потребностей пользователей подчеркивают необходимость моделей с сильными zero-shot и few-shot способностями. Хотя генеративные модели типа LLMs стали стандартом для zero-shot классификации благодаря их гибкости, они страдают от непоследовательного поведения и высокой вычислительной сложности. Cross-encoders, широко используемые в RAG-решениях, страдают от высокой сложности обработки больших наборов меток. Эмбеддинг-базисные способы эффективны, но в трудных сценариях с логическими и семантическими ограничениями часто ограничиваются. Мы предлагаем GLiClass — метод, основанный на GLiNER, который адаптирован для последовательной классификации. Он обеспечивает высокую точность и эффективность, не per-token-based, что позволяет ему сочетать гибкость zero-shot с эффективностью. #### Метод GLiClass основывается на GLiNER (Global-Local Interaction-based NER), архитектуре, которая использует маркированные токены для глобальной интеракции и локальных линейных моделей для семантического сжатия. Для классификации последовательностей мы преобразуем задачу в серию NER-подобных подзадач, используя маркированные токены для всех классов в тренировочных данных. Это позволяет модели воспринимать все вероятности классов в каждом токене как новый мета-класс. Мы также внедрили PPO для обучения моделей с помощью human-in-the-loop, что улучшает качество в случае недостатка данных. Таким образом, GLiClass выполняет сравнение между текстом и мета-классами в целом, что позволяет получать устойчивые и точные результаты в разных условиях. #### Результаты Мы провели эксперименты на нескольких популярных датасетах (AGNews, DBPedia) и сравнили GLiClass с LSTM, Transformer, cross-encoders и embedding-based моделями. Говоря об эффективности, GLiClass показал почти одинаковую точность с моделями типа embedding-based, но с значительно более высокой скоростью. Он также демонстрирует сильные результаты при few-shot обучении, превосходя другие архитектуры в сценариях с недостатком данных. Более того, PPO-обучение демонстрирует его устойчивость в сценариях с необходимостью обучения на основе корпоративного опыта или руководства пользователя. #### Значимость GLiClass может использоваться в широком кругу приложений, включая рекомендательные систем

Annotation:

Classification is one of the most widespread tasks in AI applications, serving often as the first step in filtering, sorting, and categorizing data. Since modern AI systems must handle large volumes of input data and early pipeline stages can propagate errors downstream, achieving high efficiency and accuracy is critical. Moreover, classification requirements can change dynamically based on user needs, necessitating models with strong zero-shot capabilities. While generative LLMs have become mai...

ID: 2508.07662v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 AIS-LLM: A Unified Framework for Maritime Trajectory Prediction, Anomaly Detection, and Collision Risk Assessment with Explainable Forecasting

2025-08-13

Авторы:

Hyobin Park, Jinwook Jung, Minseok Seo, Hyunsoo Choi, Deukjae Cho, Sekil Park, Dong-Geol Choi

## Контекст Морской трафик играет ключевую роль в мировой экономике, однако с ростом числа судов на Мировом океане возрастают риски негативных последствий, таких как столкновения, аварии и непредвиденные ситуации. Для эффективного управления такими ситуациями необходима система, которая могла бы предсказывать движение судов, обнаруживать аномалии и оценивать риск столкновений. Такие задачи, как предвидение маршрута судов, обнаружение аномалий и оценка риска столкновений, широко исследовались в отдельности. Однако существующие подходы не всегда могут учитывать интегрированный подход для разрешения сложных морских ситуаций. Мы предлагаем систему AIS-LLM, которая объединяет в себе методы запроса текстовых моделей (LLM) с потоковыми данными Автоматической Идентификационной Системы (AIS), чтобы решить эти задачи в рамках одного интегрированного фреймворка. ## Метод AIS-LLM представляет собой интегрированный фреймворк, который объединяет потоковые данные AIS с технологией текстовых моделей. Основными компонентами этой системы являются Time-Series Encoder, который обрабатывает потоковые данные AIS, LLM-based Prompt Encoder, который используется для получения текстовых подсказок, Cross-Modality Alignment Module, который выполняет семантическое выравнивание между временными рядами и текстовыми подсказками, и LLM-based Multi-Task Decoder, отвечающий за решение трех задач: предсказание маршрута, обнаружение аномалий и оценку риска столкновений в рамках одной модели. Все это обеспечивает эффективное решение всех трех задач в рамках одной модели, которая может быть использована для комплексной оценки морского положения. ## Результаты Мы проверили эффективность AIS-LLM на наборе данных, содержащих потоковые данные AIS, и сравнили результаты с другими существующими методами. Наши эксперименты показали, что AIS-LLM демонстрирует значительное превосходство во всех трех задачах: предсказании маршрута, обнаружении аномалий и оценке риска столкновений. Эти результаты доказывают, что интеграция LLM с потоковыми данными AIS позволяет решать эти задачи более эффективно, чем существующие подходы. ## Значимость AIS-LLM может быть применено в различных сценариях, таких как управление морским трафиком, мониторинг морских ситуаций и планирование маршрутов. Одним из основных преимуществ этой модели является возможность обеспечить комплексное обслуживание всех трех задач в рамках одной модели, что позволяет экономить ресурсы и улучшить точность. Будущие исследования будут направлены на улучшение точности предсказания, а также на расширение возможностей модели для работы с более сло

Annotation:

With the increase in maritime traffic and the mandatory implementation of the Automatic Identification System (AIS), the importance and diversity of maritime traffic analysis tasks based on AIS data, such as vessel trajectory prediction, anomaly detection, and collision risk assessment, is rapidly growing. However, existing approaches tend to address these tasks individually, making it difficult to holistically consider complex maritime situations. To address this limitation, we propose a novel ...

ID: 2508.07668v1 cs.LG, cs.AI

arXiv PDF

📄 MORE-CLEAR: Multimodal Offline Reinforcement learning for Clinical notes Leveraged Enhanced State Representation

2025-08-13

Авторы:

Yooseok Lim, ByoungJun Jeon, Seong-A Park, Jisoo Lee, Sae Won Choi, Chang Wook Jeong, Ho-Geol Ryu, Hongyeol Lee, Hyun-Lim Yang

## Контекст Sepsis, жизненноопасная воспалительная реакция на инфекцию, может привести к осложнениям и органовому недостатку, что делает критически важной проработку эффективных стратегий ее детектирования и лечения. Основные проблемы в этой области заключаются в затруднениях с получением полной картины пациентского состояния, в ограниченности существующих методов в том, что они опираются лишь на структурированные данные, такие как лабораторные исследования и клинические показатели. Более того, недостаточное использование неструктурированных клинических заметок, которые могут содержать важные сведения о состоянии пациента, является одной из основных узких мест. Это способствует появлению моделей, не в состоянии эффективно рассмотреть контекст в составе своих решений. Наша мотивация заключается в разработке подхода, который бы включил всестороннюю информацию из клинических заметок, улучшил представление статуса пациента и способствовал более точному диагностированию и лечению сепсиса. ## Метод Для решения данных проблем мы предлагаем MORE-CLEAR (Multimodal Offline Reinforcement learning for Clinical notes Leveraged Enhanced State Representation), многомодальный подход к офлайн-реинфорсменту с использованием крупномасштабных языковых моделей (LLMs). Эта модель обращается к неструктурированным клиническим заметкам, используя предварительно обученные модели языкового моделирования для извлечения разнородных клинических признаков. Архитектура MORE-CLEAR включает в себя гибкий механизм управления весами, основанный на gated fusion и cross-modal attention, которые позволяют эффективно объединять информацию из различных модальностей в зависимости от временных характеристик. Это позволяет улучшить представление состояния пациента, которое, в свою очередь, способствует более точному определению возможных действий. ## Результаты Мы провели тщательные эксперименты, используя данные из двух открытых (MIMIC-III и MIMIC-IV) и одного частного наборов данных. Результаты показали, что MORE-CLEAR сокращает ошибки оценки временных рядов и улучшает показатели политики управления сепсисом в сравнении с моделями, основанными только на структурированных данных. Например, оценка ожидаемого времени ожидания в МИМИК-III показала значительное увеличение выживаемости, что говорит о том, что MORE-CLEAR действительно улучшает понимание состояния пациента и позволяет сделать более точные рекомендации. ## Значимость MORE-CLEAR открывает новые горизонты в области офлайн-реинфорсментного управления клиническими процессами. Он может быть применен не только к сепсису, но и к другим жизненно опасным ситуациям в медицинской практике. Из-за своей

Annotation:

Sepsis, a life-threatening inflammatory response to infection, causes organ dysfunction, making early detection and optimal management critical. Previous reinforcement learning (RL) approaches to sepsis management rely primarily on structured data, such as lab results or vital signs, and on a dearth of a comprehensive understanding of the patient's condition. In this work, we propose a Multimodal Offline REinforcement learning for Clinical notes Leveraged Enhanced stAte Representation (MORE-CLEA...

ID: 2508.07681v1 cs.LG, cs.AI

arXiv PDF

📄 Energy Consumption in Parallel Neural Network Training

2025-08-13

Авторы:

Philipp Huber, David Li, Juan Pedro Gutiérrez Hermosillo Muriedas, Deifilia Kieckhefen, Markus Götz, Achim Streit, Charlotte Debus

## Контекст The demand for computational power in training neural networks has surged significantly, driven by advancements in model architectures and the need for larger datasets. This growth has led to a substantial increase in energy consumption, posing environmental challenges and raising concerns about the sustainability of AI research. Parallelization has become a key strategy to address these challenges, enabling the scaling of model and dataset sizes and accelerating training processes. However, its influence on energy consumption remains insufficiently understood. This study addresses this gap by investigating how parallelization parameters, such as GPU count, global and local batch sizes, impact energy efficiency, predictive performance, and training time. The research focuses on the training of two models: ResNet50 and FourCastNet, providing insights into the complex dynamics of energy use in neural network training. ## Метод The study employed scaling experiments to evaluate the impact of parallelization parameters on the training of ResNet50 and FourCastNet models. These experiments involved varying the number of GPUs, global batch sizes, and local batch sizes to analyze their influence on training time, predictive performance, and energy consumption. The experiments were conducted on high-performance computing infrastructure, ensuring reliable and reproducible results. The metrics included energy usage per GPU hour, training time, and model accuracy. By systematically analyzing these factors, the authors aimed to uncover the complex interplay between parallelization parameters and their effect on energy efficiency in neural network training. ## Результаты The experiments revealed that energy consumption scales approximately linearly with the consumed GPU hours, but the scaling factor varies significantly between different models and hardware configurations. For ResNet50, increasing the global batch size led to a more efficient use of resources, with a smaller increase in energy consumption relative to the increase in GPU hours. In contrast, FourCastNet demonstrated a more complex relationship, with local batch size playing a more critical role in determining energy efficiency. The results also highlighted that the number of samples and gradient updates per GPU hour strongly influences the overall energy consumption. These findings provide a detailed understanding of the factors affecting energy use in neural network training and highlight the importance of optimizing parallelization strategies for sustainable AI research. ## Значимость The insights from this study are highly relevant for improving the sustainability of AI research. By quantifying the energy costs associated with parallelization, the research provides a foundation for developing more energy-efficient training strategies. The findings have practical applications in optimizing GPU utilization, reducing energy consumption, and minimizing the environmental impact of neural network training. Furthermore, the study informs the design of future hardware and software solutions tailored to the specific needs of energy-efficient AI training. The results contribute to the broader goal of making AI more sustainable and environmentally friendly. ## Выводы The study underscores the importance of understanding the energy dynamics in neural network training and the critical role of parallelization parameters in influencing energy consumption. It demonstrates that while parallelization accelerates training and enables the handling of larger datasets, it also introduces significant energy costs that must be carefully managed. The findings provide a basis for future research into more sustainable AI practices, including the development of energy-efficient algorithms and hardware. By addressing the challenges of energy use in neural network training, this research advances the field towards a more sustainable and responsible use of AI technologies.

Annotation:

The increasing demand for computational resources of training neural networks leads to a concerning growth in energy consumption. While parallelization has enabled upscaling model and dataset sizes and accelerated training, its impact on energy consumption is often overlooked. To close this research gap, we conducted scaling experiments for data-parallel training of two models, ResNet50 and FourCastNet, and evaluated the impact of parallelization parameters, i.e., GPU count, global batch size, a...

ID: 2508.07706v1 cs.LG, cs.AI

arXiv PDF

📄 Training-Free ANN-to-SNN Conversion for High-Performance Spiking Transformer

2025-08-13

Авторы:

Jingya Wang, Xin Deng, Wenjie Wei, Dehao Zhang, Shuai Wang, Qian Sun, Jieyuan Zhang, Hanwen Liu, Ning Xie, Malu Zhang

## Контекст Спайкинг Нейронные Сети (Spiking Neural Networks, SNNs) являются эффективным способом расчета, основанным на событиях, которые позволяют реализовывать высокоэффективные архитектуры трансформеров. Они значительно снижают потребление энергии по сравнению с традиционными нейронными сетями. Однако, существующие методы преобразования ANN-to-SNN для трансформеров сталкиваются с рядом проблем, включая неэффективное обработку нелинейных операций, высокую стоимость обучения, а также необходимость дополнительного шага файнтюнинга для предварительно обученных моделей. Наша работа сосредоточена на создании метода без обучения, который мог бы эффективно конвертировать предварительно обученные трансформерные модели в SNNs без ущерба для точности и с наименьшим временем работы. ## Метод Мы предлагаем метод ANN-to-SNN конвертации, основанный на использовании нового типа нейрона с экспоненциальным убыванием (Multi-basis Exponential Decay, MBE). Этот нейрон эффективно приближает нелинейные операции в сети, используя многобазисную кодировку, что позволяет избежать изменений весов в предварительно обученных моделях. Метод не требует дополнительных шагов обучения и позволяет достичь высокой точности преобразования. Мы также разработали специальные методы для улучшения обработки данных в спайкинге моделях, чтобы лучше подстроиться под необходимые требования для различных трансформеров и задач (CV, NLU, NLG). ## Результаты Мы провели эксперименты на различных задачах (Computer Vision, Natural Language Understanding, Natural Language Generation) и использовали трансформерные модели, такие как ViT, RoBERTa и GPT-2. Наши результаты показали, что метод MBE достигает близкой к затратившейся точности преобразования с значительно меньшим временем выполнения. Например, при конвертации ViT-сети мы достигли почти на 10% улучшения точности по сравнению с другими методами, а время работы было сокращено в 2 раза. Эти результаты доказывают высокую эффективность нашего подхода в сравнении с классическими методами. ## Значимость Наша работа открывает новые возможности для эффективного развертывания SNNs в реальном мире. Она позволяет сократить энергозатраты и улучшить скорость работы для трансформеров, что важно для приложений в области ИИ, таких как обработка естественного языка, глубокое обучение на видео и распознавание речи. Улучшенная точность и низкая задержка делают нашу модель привлекательной для применения в ситуациях, где необходима высокая эффективность и низкое потребление энергии. ## Выводы Мы представили новый метод конвертации ANN-to-SNN, который позволяет конвертировать предварительно обу

Annotation:

Leveraging the event-driven paradigm, Spiking Neural Networks (SNNs) offer a promising approach for constructing energy-efficient Transformer architectures. Compared to directly trained Spiking Transformers, ANN-to-SNN conversion methods bypass the high training costs. However, existing methods still suffer from notable limitations, failing to effectively handle nonlinear operations in Transformer architectures and requiring additional fine-tuning processes for pre-trained ANNs. To address these...

ID: 2508.07710v1 cs.LG, cs.AI

arXiv PDF

📄 Learning to Align, Aligning to Learn: A Unified Approach for Self-Optimized Alignment

2025-08-13

Авторы:

Haowen Wang, Yun Yue, Zhiling Ye, Shuowen Zhang, Lei Fan, Jiaxin Liang, Jiadi Jiang, Cheng Wei, Jingyuan Deng, Xudong Han, Ji Li, Chunxiao Guo, Peng Wei, Jian Wang, Jinjie Gu

## Контекст Одним из ключевых направлений развития языковых моделей является улучшение их возможностей алигментации. Это позволяет моделям лучше понимать и воспроизводить человеческие предпочтения в различных контекстах. Существующие подходы, такие как супервизованная тонкая настройка (SFT) и оптимизация политики с использованием опыта (PPO), имеют свои ограничения. SFT обеспечивает высокую точность, но не может эффективно адаптироваться к новым задачам. PPO, в свою очередь, предлагает более гибкий подход, но требует большого объема вычислительных ресурсов и высококачественных основных моделей. Эти ограничения поднимают вопрос о создании более универсального и эффективного подхода к алигментации. ## Метод Мы предлагаем **GRAO (Group Relative Alignment Optimization)** — унифицированный фреймворк, который объединяет сильные стороны SFT и RL. Фундаментальной идеей является использование **групповой оценки качества** и **относительной алигментации**. Метод включает следующие ключевые компоненты: 1. **Множественное генерирование сравнительного анализа**: модель генерирует несколько вариантов ответов и сравнивает их с помощью внешнего рейтинга, чтобы определить качество. 2. **Новая формула Group Direct Alignment Loss**: включает в себя весовую оценку внутригрупповых отношений, чтобы улучшить точность. 3. **Управление параметрами с учетом справочных данных**: адаптирует модель на основе параметров, которые учитывают предпочтения пользователя в динамическом режиме. Теоретические обоснования подтверждают, что GRAO обеспечивает более эффективную оптимизацию и высокую точность в сравнении с существующими методами. ## Результаты Мы провели эксперименты на множестве задач, включая комплексные задачи выравнивания на основе человеческих оценок. GRAO показал следующие результаты по сравнению с базовыми подходами: - **SFT**: 57.70% дополнительное улучшение в выполнении задач. - **DPO**: 17.65% улучшение в точности. - **PPO**: 7.95% уменьшение времени обучения. - **GRPO**: 5.18% увеличение эффективности. Эти результаты подтверждают эффективность GRAO в решении задач, где требуется быстрая и точная алигментация. ## Значимость GRAO может применяться в таких областях, как диалоговые системы, трансляторы и системы поиска информации. Он обеспечивает: - Более эффективную алигментацию за счет интеграции лучших аспектов SFT и RL. - Улучшенную точность и ресурсоснимаемость, что делает его привлекательным для реальных приложений. - Устойчивость к новым задачам без необходимости частых дорогостоящих тюнингов. ## Выводы GRAO

Annotation:

Alignment methodologies have emerged as a critical pathway for enhancing language model alignment capabilities. While SFT (supervised fine-tuning) accelerates convergence through direct token-level loss intervention, its efficacy is constrained by offline policy trajectory. In contrast, RL(reinforcement learning) facilitates exploratory policy optimization, but suffers from low sample efficiency and stringent dependency on high-quality base models. To address these dual challenges, we propose GR...

ID: 2508.07750v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 Sparse Probabilistic Graph Circuits

2025-08-13

Авторы:

Martin Rektoris, Milan Papež, Václav Šmídl, Tomáš Pevný

#### Контекст Глубокие генерирующие модели (DGMs) для графов достигли впечатляющей выразительности благодаря эффективным и масштабируемым нейронным сетям. Однако, нелинейные операции в этих сетях мешают аналитическому вычислению простой проблемы простой проблемы логических запросов, что делает эти модели "нераспространенными". Недавно разработанные Probabilistic Graph Circuits (PGCs) решают эту проблему, предоставляя возможность распространенного аналитического вычисления проблем логических запросов. Однако, PGCs работают с толстыми представлениями графов, имеющими $\mathcal{O}(n^2)$ сложность, где $n$ — число узлов, а $m$ — число ребер в графе. Данная сложность становится проблемой при работе с большими графами. Чтобы улучшить эффективность, мы предлагаем Sparse Probabilistic Graph Circuits (SPGCs) — новую классу трактуемых моделей генерирующих графы, работающих с узкими представлениями графа, снижающими сложность до $\mathcal{O}(n + m)$, что значительно эффективнее для случаев $m \ll n^2$. #### Метод SPGCs оперируют спарсевыми представлениями графов, которые содержат только активные ребра, сокращая необходимую сложность. Для реализации используется архитектура глубоких нейронных сетей, адаптированная для эффективного вычисления стандартных запросов логического типа. Мы используем техники сжатия графов, что позволяет ускорить вычисления и сократить используемую память. Во время обучения, SPGCs используют потери, которые принуждают модель к точному вычислению количественных запросов. #### Результаты Мы проводили эксперименты на различных графовых задачах, включая задачу нового лекарственного дизайна. SPGCs доказали способность выполнять точные аналитические запросы с большей эффективностью по сравнению с интраккунтными DGMs. Мы показали, что SPGCs обеспечивают эффективность в памяти, эффективность вычислений и совпадают с интраккунтными DGMs по ключевым метрикам. Наши результаты подтвердили то, что SPGCs хорошо работают в скорости и точности, даже при работе с большими графами. #### Значимость SPGCs могут быть применены в различных областях, включая классификацию графов, разметку, новый дизайн лекарств и другие задачи, где требуется эффективный и точный вычислительный подход. Они предлагают выгоды в скорости и эффективности памяти по сравнению с интракктивными DGMs. Наш подход может положительно сказаться на развитии глубоких моделей графов, позволяя их применять в реальных задачах, где требуется высокая эффективность. #### Выводы Мы представили новую классу трактуемых моделе

Annotation:

Deep generative models (DGMs) for graphs achieve impressively high expressive power thanks to very efficient and scalable neural networks. However, these networks contain non-linearities that prevent analytical computation of many standard probabilistic inference queries, i.e., these DGMs are considered \emph{intractable}. While recently proposed Probabilistic Graph Circuits (PGCs) address this issue by enabling \emph{tractable} probabilistic inference, they operate on dense graph representation...

ID: 2508.07763v1 cs.LG, cs.AI

arXiv PDF

1
2
275
276
277
278
279
290
291

Показано 2761 - 2770 из 2901 записей