📚 Саммари научных статей из arXiv

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Revisiting Heat Flux Analysis of Tungsten Monoblock Divertor on EAST using Physics-Informed Neural Network

2025-08-09

Авторы:

Xiao Wang, Zikang Yan, Hao Si, Zhendong Yang, Qingquan Yang, Dengdi Sun, Wanli Lyu, Jin Tang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Эффективная оценка теплового потока в термоядерном устройстве EAST является критическим заданием для обеспечения безопасной и эффектной работы реактора. В традиционных методах, таких как Метод Конечных Элементов (Finite Element Method, FEM), моделирование теплопроводности зависит от решения уравнений на основе сетки (grid-based sampling), что вызывает значительные вычислительные затраты. Такой подход не только требует больших вычислительных мощностей, но также затрудняет реальновременные моделирования во время экспериментов. Это создает узкое место в процессе анализа и оптимизации работы EAST, особенно в условиях высокой тепловой нагрузки на компоненты, такие как моноблочный дивертор. Недавние тенденции в области искусственного интеллекта и научных вычислений показывают потенциал для решения этих проблем. Физико-информированные нейронные сети (Physics-Informed Neural Networks, PINN) предлагают новый подход, который сочетает физические законы с мощностью нейронных сетей. Использование PINN позволяет упрощать процесс моделирования, избавляя от необходимости использования сложных сеточных структур, и обеспечивает более быстрое решение уравнений теплопроводности. В данной работе авторы предлагают использовать PINN для ускорения процесса оценки теплового потока в EAST. Цель состоит в том, чтобы сочетать высокую точность, присущую традиционным методам, с высокой вычислительной эффективностью, необходимой для реальновременного мониторинга и контроля. Авторы также рассматривают влияние различных материалов и условий нагрузки на эффективность модели, чтобы обеспечить широкую применимость подхода. ## ПРЕДЛОЖЕННЫЙ МЕТОД В работе предлагается использование физико-информированной нейронной сети (PINN) для моделирования теплопроводности в диверторе EAST. Архитектура сети основывается на решении уравнений теплопроводности с помощью нейронной сети, которая обучается с учетом физических законов. Для этого сеть принимает входные данные, такие как пространственные координаты и временные отметки, и вычисляет потери на граничных условиях, начальных условиях и физических потерях, основываясь на уравнении теплопроводности. Для улучшения точности, авторы также используют метод сэмплирования данных в дата-дривенном режиме. Это позволяет адаптировать модель к конкретным условиям тепловой нагрузки, что улучшает качество прогнозов. Особенностью данного подхода является то, что PINN не требует использования традиционных сеток для вычислений, что существенно уменьшает вычислительные затраты. Авторы также обеспечивают возможность моделирования в условиях различных типов нагрузки, включая равномерную и неравномерную тепловую стимуляцию на поверхности дивертора. Для этого используются различные наборы входных данных, которые позволяют моделировать различные сценарии теплопередачи. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели эксперименты по оценке теплового потока в условиях различных типов тепловой нагрузки на поверхности дивертора. Для этого использовались данные, полученные в различных условиях экспериментов на EAST. Результаты показали, что предлагаемая модель PINN достигает точности, сравнимой с Методом Конечных Элементов, но с значительно более высокой вычислительной эффективностью. В частности, PINN достигает ускорения в $\times$40 раз по сравнению с традиционным методом FEM, при этом сохраняя высокую точность моделирования. Это позволяет проводить реальновременные моделирования и анализ теплового потока во время экспериментов, что является критическим для эффективного управления работой EAST. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет значительное практическое применение в области термоядерных исследований. Благодаря высокой вычислительной эффективности, PINN может быть использован для реальновременного мониторинга и контроля теплового потока во время экспериментов на EAST. Это позволяет оптимизировать условия работы реактора, минимизируя риски повреждения компонентов и обеспечивая более надежную и безопасную эксплуатацию. Кроме того, предложенный подход может быть применен в других областях, требующих моделирования теплопроводности, таких как промышленные приложения, научные исследования и другие области, где необходима высокая точность и вычислительная эффективность. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В данной работе представлен новый подход к моделированию теплового потока в термоядерном устройстве EAST с помощью физико-информированной нейронной сети. Результаты показывают, что этот подход не только обеспечивает высокую точность, но также существенно ускоряет процесс моделирования. Будущие исследования могут сосредоточиться на дальнейшей оптимизации архитектуры сети и расширении ее применимости к другим типам термоядерных установок.

Annotation:

Estimating heat flux in the nuclear fusion device EAST is a critically important task. Traditional scientific computing methods typically model this process using the Finite Element Method (FEM). However, FEM relies on grid-based sampling for computation, which is computationally inefficient and hard to perform real-time simulations during actual experiments. Inspired by artificial intelligence-powered scientific computing, this paper proposes a novel Physics-Informed Neural Network (PINN) to ad...

ID: 2508.03776v1 cs.LG, cs.AI

arXiv PDF

📄 When Agents Break Down in Multiagent Path Finding

2025-08-09

Авторы:

Foivos Fioravantes, Dušan Knop, Nikolaos Melissinos, Michal Opler

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message # КОНТЕКСТ И ПРОБЛЕМАТИКА Multiagent Path Finding (MAPF) является ключевой областью исследований в современной робототехнике и искусственном интеллекте. Она заключается в построении эффективных, конфликто-свободных траекторий для множества агентов, которые перемещаются в сетевой структуре из начальных точек к целевым. Основной целью является минимизация makespan — времени, необходимого для того, чтобы все агенты достигли своих мест назначения. Однако в реальных сценариях агенты часто сталкиваются с непредвиденными сбоями и задержками, что создает значительные трудности для сохранения оптимальности расписания. При обработке таких сбоев традиционные подходы часто требуют полного пересчета расписания, что может быть вычислительно нецелесообразно или даже невозможно в ситуациях с ограниченными ресурсами. Более того, в сложных системах, где агенты могут иметь ограниченные вычислительные возможности, полная переработка расписания может привести к катастрофическим задержкам. Эти проблемы подчеркивают необходимость разработки методологий, которые позволяют агентам адаптироваться динамически к сбоям без полной перезагрузки системы. В этой работе авторы предлагают новый взгляд на MAPF, включая формальную модель сбоев и задержек агентов. Они фокусируются на разработке протоколов, которые позволяют агентам локально координироваться и адаптировать свои траектории на ходу, не прибегая к полной перезагрузке системы. Такой подход не только сокращает временные затраты, но также обеспечивает устойчивость системы в условиях непредвиденных событий. # ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают фреймворк для динамической адаптации расписаний, основанный на двух основных протоколах. Первый протокол, называемый "первичным коммуникационным протоколом", позволяет агентам локально координироваться и изменять свои траектории в ответ на сбои. Этот протокол гарантирует, что при возникновении $k$ сбоев увеличение makespan будет ограничено $k$ дополнительными ходами, что эффективно снижает влияние сбоев на общую эффективность системы. Второй протокол, названный "вторичным протоколом", разработан для систем, где агенты имеют ограниченные вычислительные ресурсы. В этом протоколе большая часть вычислений смещается на узлы сети, что позволяет сохранить эффективность и робастность системы без необходимости увеличения вычислительной мощности агентов. Этот подход обеспечивает баланс между вычислительной эффективностью и робастностью, что делает его применимым в реальных системах с ограниченными ресурсами. # ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели серию экспериментов для оценки эффективности предложенных протоколов. Используя различные наборы данных, они моделировали сценарии с разной частотой и характером сбоев агентов. Результаты показали, что первичный протокол эффективно ограничивает увеличение makespace при сбоях, согласно теоретическим прогнозам. Вторичный протокол также демонстрирует высокую эффективность, особенно в системах с низким вычислительным потенциалом агентов. Кроме того, эксперименты подтвердили масштабируемость предложенного подхода. Даже в ситуациях с большим количеством агентов и сложной топологией сети, протоколы показали стабильное поведение и эффективность в управлении сбоями. # ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенные методы имеют широкое применение в областях, требующих эффективного управления множеством агентов, таких как логистика, роботизированные системы хранения, авиационный трафик и самостоятельные транспортные системы. Особенностью данного подхода является его способность обеспечить устойчивость и эффективность в реальном времени, что критически важно для приложений в динамических и непредсказуемых средах. # ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе представлен фреймворк для решения проблем сбоев в MAPF, который обеспечивает эффективную и робастную адаптацию расписаний. Будущие исследования могут фокусироваться на расширении этих методов для более сложных сценариев, включая динамически изменяющиеся среды и системы с нелинейными зависимостями между агентами. Также предлагается исследовать возможности интеграции машинного обучения для дальнейшего улучшения адаптивности системы.

Annotation:

In Multiagent Path Finding (MAPF), the goal is to compute efficient, collision-free paths for multiple agents navigating a network from their sources to targets, minimizing the schedule's makespan-the total time until all agents reach their destinations. We introduce a new variant that formally models scenarios where some agents may experience delays due to malfunctions, posing significant challenges for maintaining optimal schedules. Recomputing an entirely new schedule from scratch after eac...

ID: 2508.03777v1 cs.MA, cs.AI

arXiv PDF

📄 Are Inherently Interpretable Models More Robust? A Study In Music Emotion Recognition

2025-08-09

Авторы:

Katharina Hoedt, Arthur Flexer, Gerhard Widmer

Модели глубокого обучения часто страдают от нестабильности — они не всегда обеспечивают согласованные выводы при мелких изменениях входных данных. Эта нерешительность часто связана с зависимостью от спурывых корреляций. В статье "Are Inherently Interpretable Models More Robust? A Study In Music Emotion Recognition" авторы рассматривают возможность улучшения устойчивости моделей путем интеграции принципов интерпретируемости. Они сравнивают робастность интерпретируемой модели MER с блэк-бокс-альтернативой и моделью, натренированной с использованием адверсарного обучения. Исследование показало, что интерпретируемые модели не только демонстрируют более высокую устойчивость к адверсарным примерам, но и экономят ресурсы в процессе. Эти результаты подтверждают потенциал интерпретируемых моделей в повышении устойчивости и эффективности в задачах музыкального распознавания эмоций.

Annotation:

One of the desired key properties of deep learning models is the ability to generalise to unseen samples. When provided with new samples that are (perceptually) similar to one or more training samples, deep learning models are expected to produce correspondingly similar outputs. Models that succeed in predicting similar outputs for similar inputs are often called robust. Deep learning models, on the other hand, have been shown to be highly vulnerable to minor (adversarial) perturbations of the i...

ID: 2508.03780v1 cs.SD, cs.AI, eess.AS

arXiv PDF

📄 LLMs are Single-threaded Reasoners: Demystifying the Working Mechanism of Soft Thinking

2025-08-09

Авторы:

Chünhung Wu, Jinliang Lu, Zixuan Ren, Gangqiang Hu, Zhi Wu, Dai Dai, Hua Wu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Человеческое мышление приспособлено к работе с абстрактными и гибкими понятиями, однако современные модели резонного мышления часто ограничены генерацией дискретных токенов, что может ограничивать их выразительные возможности. В последнее время было предпринято много усилий по расширению возможностей больших языковых моделей (LLMs) за счет использования мягких, абстрактных токенов, что позволяет проводить резонирование в непрерывном пространстве концепций. Это подход, известный как "Soft Thinking", обещает расширить возможности LLMs в решении сложных задач резонации. Однако, несмотря на потенциал Soft Thinking, существуют недостатки в том, как LLMs используют мягкие токены. Многие модели, как показывают последние исследования, предпочитают использовать наиболее влиятельные компоненты мягких входных данных во время процесса декодирования, что ограничивает возможность освещения различных путей резонации. Это приводит к тому, что Soft Thinking сводится к жадному декодированию, что снижает преимущества передачи более широкой информации через мягкие токены. В данной работе авторы проводят подробный анализ внутреннего поведения LLMs при использовании Soft Thinking, используя различные методы пробингования. Они показывают, что, несмотря на ожидание, что Soft Thinking может позволить моделям одновременно исследовать различные пути резонации, в действительности модели склонны к упрощенному подходу, который не позволяет полностью реализовать потенциал этого подхода. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения ограничений ванильного подхода Soft Thinking, авторы предлагают ввести элементы случайности в процесс декодирования. Они используют два метода: Dirichlet resampling и Gumbel-Softmax trick. Эти методы позволяют ввести случайность в процесс генерации токенов, что помогает моделям исследовать более широкий набор вариантов резонации. Dirichlet resampling позволяет создавать распределения случайных весов для мягких токенов, в то время как Gumbel-Softmax trick предоставляет более контролируемый способ введения случайности с гладким переходом между дискретным и непрерывным пространством. Эти методы позволяют моделям расширить свои возможности в исследовании различных путей резонации, что приводит к лучшим результатам в задачах, требующих сложного мышления. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы проводят ряд экспериментов на базе восьми различных резонирующих задач, чтобы оценить эффективность предложенных методов. Результаты показывают, что использование случайности в процессе декодирования значительно повышает производительность моделей. В частности, Gumbel-Softmax trick демонстрирует наилучшие результаты, обеспечивая достаточную степень случайности и гладкость перехода между режимами. Исследования показывают, что внедрение случайности позволяет моделям лучше использовать потенциал мягких токенов, что приводит к значительному улучшению результатов в резонирующих задачах. Эти результаты подтверждают, что случайность может быть ключевым фактором для расширения возможностей LLMs в резонации. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный подход имеет широкие практические применения в областях, требующих сложного резонативного мышления, таких как научное исследование, клиническая диагностика и сложные задачи принятия решений. Использование мягких токенов с введением случайности позволяет улучшить качество и точность решений, что делает этот подход привлекательным для реального мира. Кроме того, этот подход может быть использован в областях, требующих гибкости и адаптивности, таких как робототехника и автономные системы. Преимущества этого подхода заключаются в том, что он позволяет моделям более эффективно использовать информацию и исследовать различные пути резонации, что может привести к более творческим и точным решениям. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В целом, данное исследование показывает, что Soft Thinking может быть значительно улучшено за счет введения случайности в процесс декодирования. Использование методов таких как Gumbel-Softmax trick позволяет расширить возможности LLMs в резонации, что делает этот подход более эффективным в решении сложных задач. В будущем, дальнейшие исследования могут фокусироваться на разработке более эффективных способов введения случайности, а также на исследовании других методов для улучшения Soft Thinking. Это может привести к более широкому применению этого подхода в различных областях, где требуется сложное и гибкое мышление.

Annotation:

Human cognition naturally engages with abstract and fluid concepts, whereas existing reasoning models often rely on generating discrete tokens, potentially constraining their expressive capabilities. Recent advancements aim to address this limitation by enabling large language models (LLMs) to generate soft, abstract tokens, thus facilitating reasoning within a continuous concept space. This paper explores the `Soft Thinking' capabilities of various LLMs by examining the models' internal behavio...

ID: 2508.03440v3 cs.CL, cs.AI

arXiv PDF

📄 AIC CTU@FEVER 8: On-premise fact checking through long context RAG

2025-08-09

Авторы:

Herbert Ullrich, Jan Drchal

## КОНТЕКСТ И ПРОБЛЕМАТИКА Фактчекинг является ключевой задачей в области обработки естественного языка, особенно в условиях распространения дезинформации в современном мире. Так как информация становится все более доступной, но не всегда точной или достоверной, необходимость в эффективных системах фактчекинга становится все более критичной. Традиционные подходы часто сталкиваются с проблемами, связанными с ограничениями вычислительных ресурсов, в том числе памяти и времени выполнения. Одной из ключевых проблем в области фактчекинга является необходимость обработки больших объемов текстовой информации из различных источников для проверки достоверности утверждений. Это требует моделей, которые могут эффективно обрабатывать длинные контексты и выполнять поиск доказательств в крупных корпусах текстов. Однако, многие существующие решения требуют значительных вычислительных мощностей, что может быть непрактично в реальных условиях. FEVER (Fact Extraction and VERification) — это одна из крупнейших соревнований, направленных на развитие систем фактчекинга. Многие участники соревнований стремятся создать модели, которые могут эффективно обрабатывать данные, но не всегда учитывают ограничения ресурсов. Таким образом, создание фактчекинговой системы, которая может работать в условиях ограниченных вычислительных ресурсов, является значительным достижением. В этой работе авторы представляют свою систему фактчекинга, которая достигла первого места в FEVER 8 shared task. Эта система была разработана с учетом ограничений ресурсов, включая одну NVidia A10 GPU, 23 ГБ графической памяти и время выполнения в 60 секунд на утверждение. Это представляет собой существенный шаг вперед в области эффективных и практически применимых решений для фактчекинга. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают фактчекинговую систему, основанную на двухэтапном подходе с использованием RAG (Retrieval-Augmented Generation). Эта система является развитием их предыдущего решения, использованного в прошлом году. Двухэтапная архитектура состоит из стадии поиска доказательств (retrieval) и стадии генерации ответов (generation). На стадии поиска доказательств система использует модель RAG для извлечения релевантной информации из большого корпуса текстов. Этот подход позволяет модели эффективно обрабатывать длинные контексты, что является ключевым фактором для точности фактчекинга. Для оптимизации производительности система была адаптирована для работы на одной NVidia A10 GPU, что позволяет обеспечить высокую скорость обработки в условиях ограниченных вычислительных ресурсов. На второй стадии, после извлечения доказательств, система использует модель генеративного моделирования для создания ответов на основе извлеченных фактов. Эта стадия также оптимизирована для обеспечения высокого качества ответов в условиях ограниченного времени выполнения (60 секунд на утверждение). Авторы также подробно описывают процесс развертывания системы на предприятии (on-premise), что демонстрирует практическую применимость их решения. Они показывают, что их система может достигнуть состояния-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-из-и

Annotation:

In this paper, we present our fact-checking pipeline which has scored first in FEVER 8 shared task. Our fact-checking system is a simple two-step RAG pipeline based on our last year's submission. We show how the pipeline can be redeployed on-premise, achieving state-of-the-art fact-checking performance (in sense of Ev2R test-score), even under the constraint of a single NVidia A10 GPU, 23GB of graphical memory and 60s running time per claim.

ID: 2508.04390v1 cs.CL, cs.AI

arXiv PDF

📄 Do GNN-based QEC Decoders Require Classical Knowledge? Evaluating the Efficacy of Knowledge Distillation from MWPM

2025-08-09

Авторы:

Ryota Ikeda

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message # КОНТЕКСТ И ПРОБЛЕМАТИКА Одним из ключевых факторов для реализации практических квантных компьютеров является эффективность декодеров в системах квантной correoção de erros (QEC). Эти декодеры отвечают за идентификацию и коррекцию ошибок, возникающих в квантных вычислениях, что является основной проблемой для достижения стабильной работы квантных компьютеров. В последние годы графовые нейронные сети (Graph Neural Networks, GNNs) привлекли значительное внимание как перспективный подход к QEC. GNNs могут моделировать сложные зависимости в пространственно-временной структуре ошибок, что делает их особенно привлекательными для этой области. Однако, методология обучения GNNs в контексте QEC ещё недостаточно изучена. Обычно предполагается, что перенос теоретического знания из классических алгоритмов, таких как Minimum Weight Perfect Matching (MWPM), в GNNs через метод knowledge distillation может значительно улучшить их производительность. Тем не менее, существует вопрос о том, насколько необходим этот теоретический вклад, учитывая возможности современных GNNs. Могут ли GNNs эффективно извлекать сложные корреляции из реальных данных квантных систем без необходимости руководства классическими моделями? Эта работа представляет собой систематическое исследование этого вопроса, оценивая эффективность knowledge distillation из MWPM для GNN-based декодеров. # ПРЕДЛОЖЕННЫЙ МЕТОД В исследовании были разработаны две модели на основе Graph Attention Network (GAT), которые интегрируют временные данные в качестве черт узлов. Первая модель, бейзлайн, обучалась исключительно на основе ground-truth меток, то есть без какого-либо теоретического руководства. Вторая модель использовала метод knowledge distillation, где в качестве дополнительного сигнала для обучения были использованы теоретические вероятности ошибок, полученные из MWPM. Каждая модель была оценена на публичных данных, полученных от Google, которые представляют реальные условия работы квантных систем. Метод обучения для обоих моделей включал оптимизацию функции потерь, но вторая модель также учитывала дополнительную функцию потерь, основанную на выходах MWPM. Цель этой модификации была оценить, насколько эффективно переносится теоретическое знание и как это влияет на скорость и качество обучения. # ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Результаты экспериментов показали, что финальная точность тестирования для модели с knowledge distillation была практически идентична той, что была достигнута бейзлайном. Однако, процесс обучения для модели с knowledge distillation был значительно медленнее. Время обучения для этой модели увеличилось примерно в пять раз по сравнению с бейзлайном. Эти результаты указывают на то, что современные GNNs обладают высокой способностью к извлечению сложных корреляций из реальных данных квантных систем без необходимости руководства классическими моделями. Это говорит о том, что GNNs могут эффективно адаптироваться к сложностям реального мира без необходимости дополнительного теоретического ввода. # ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Эти результаты имеют важное значение для разработки квантных компьютеров. Они показывают, что GNNs могут быть обучены напрямую на данных, получаемых из квантных систем, без необходимости дополнительного теоретического ввода. Это упрощает процесс разработки и потенциально ускоряет развитие QEC-систем. Кроме того, это открывает пути для более эффективного использования GNNs в квантных вычислениях, где решения должны быть приняты в реальном времени. Отсутствие необходимости в knowledge distillation также может снизить сложность моделей и сделать их более пригодными для реальных приложений. # ВЫВОДЫ И ПЕРСПЕКТИВЫ Наиболее важным выводом этой работы является то, что современные GNNs могут эффективно обучиться на данных квантных систем без необходимости руководства классическими моделями. Это открывает новые возможности для развития QEC-систем, основанных на GNNs. В будущем, исследования могут фокусироваться на дальнейшем улучшении архитектур GNNs для QEC, а также на исследовании других методов обучения, которые могут дать дополнительные преимущества. Также, будет важно изучить влияние различных типов данных и условий на эффективность GNN-based декодеров.

Annotation:

The performance of decoders in Quantum Error Correction (QEC) is key to realizing practical quantum computers. In recent years, Graph Neural Networks (GNNs) have emerged as a promising approach, but their training methodologies are not yet well-established. It is generally expected that transferring theoretical knowledge from classical algorithms like Minimum Weight Perfect Matching (MWPM) to GNNs, a technique known as knowledge distillation, can effectively improve performance. In this work, we...

ID: 2508.03782v1 quant-ph, cs.AI, J.2

arXiv PDF

📄 Probing and Enhancing the Robustness of GNN-based QEC Decoders with Reinforcement Learning

2025-08-09

Авторы:

Ryota Ikeda

## КОНТЕКСТ И ПРОБЛЕМАТИКА Квантующиеся компьютеры становятся все более реальностью, однако их работа всё ещё сталкивается со значительными вычислительными ошибками, вызванными квантующейся средой. Ключевым решением этой проблемы является квантовая коррекция ошибок (Quantum Error Correction, QEC), которая позволяет обнаруживать и исправлять ошибки в квантующихся вычислениях. Однако эффективное применение QEC требует надежных методов декодирования, которые могут обрабатывать сложные шумовые характеристики. В последнее время Graph Neural Networks (GNNs) получили широкое признание как мощный инструмент для декодирования в QEC, благодаря их способности обучаться на сложных шумовых моделях напрямую из синдромных данных. Несмотря на то, что GNNs демонстрируют высокую точность в декодировании, их устойчивость к адверсарным (враждебным) перестановкам и небольшим изменениям в синдромных данных остается неясной. Эта проблема особенно критична для квантовых вычислений, требующих высокой надежности и устойчивости к любым видам помех. В работе предлагается исследовать уязвимости GNN-декодеров, в частности Graph Attention Networks (GAT), используемых для декодирования данных синдромов из экспериментального кода поверхности, собранных Google Quantum AI. Целью этого исследования является разработка методологии для выявления критических уязвимостей в GNN-декодерах и последующего укрепления их устойчивости. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной работе предлагается новый метод для исследования и улучшения устойчивости GNN-декодеров с помощью Reinforcement Learning (RL). RL-агент обучается взаимодействовать с GNN-декодером, выполняя роль "врага" или "атакующего", с целью найти минимальные изменения в синдромных данных, которые приведут к ошибке декодера. Этот метод позволяет систематически исследовать уязвимости GNN-декодеров. RL-агент обучается на базе GAT-декодера, обученного на синдромных данных surface code от Google Quantum AI. Агент ищет такие изменения, которые могут вызвать неправильное декодирование с минимальным количеством перестановок. Этот процесс позволяет выявить критические уязвимости, которые могут быть использованы для дальнейшего улучшения модели. Кроме того, для улучшения устойчивости декодера предлагается метод адверсарного обучения (adversarial training). Этот метод включает в себя последующее обучение декодера на адверсарных примерах, сгенерированных RL-агентом. Такой подход позволяет декодеру адаптироваться к возможным атакам и становиться более устойчивым к ним. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках экспериментов RL-агент был обучен на синдромных данных surface code, используя GAT-декодер. Результаты показали, что RL-агент способен находить критические уязвимости декодера с высокой точностью, достигая высокого процента успешных атак с минимальным количеством изменений в синдромных данных. Далее, было проведено адверсарное обучение, в ходе которого GAT-декодер был переобучен на адверсарных примерах, сгенерированных RL-агентом. Результаты демонстрируют значительное улучшение устойчивости декодера. После адверсарного обучения GAT-декодер стал менее чувствителен к адверсарным изменениям, что свидетельствует о успешности предложенного метода. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предлагаемый метод имеет значительное практическое применение в области квантовых вычислений, особенно в разработке надежных QEC-декодеров. Улучшение устойчивости декодеров к адверсарным изменениям может повысить надежность квантовых вычислений, что критически важно для реализации фаульт-толерантных квантовых компьютеров. Преимущества предлагаемого метода заключаются в его способности систематически выявлять уязвимости и адаптировать декодер к ним. Это может привести к разработке более надежных и точных декодеров, которые могут быть использованы в реальных квантовых вычислительных системах. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе было показано, что RL-агент может эффективно выявлять критические уязвимости в GNN-декодерах, а адверсарное обучение может значительно повысить устойчивость декодеров к таким атакам. Этот подход открывает новые возможности для разработки более надежных и точных QEC-декодеров. В будущем, этот метод может быть расширен для исследования других типов декодеров и синдромных данных, а также для исследования более сложных адверсарных сценариев. Также, дальнейшие исследования могут фокусироваться на оптимизации процесса адверсарного обучения для ещё большего повышения устойчивости декодеров.

Annotation:

Graph Neural Networks (GNNs) have emerged as a powerful, data-driven approach for Quantum Error Correction (QEC) decoding, capable of learning complex noise characteristics directly from syndrome data. However, the robustness of these decoders against subtle, adversarial perturbations remains a critical open question. This work introduces a novel framework to systematically probe the vulnerabilities of a GNN decoder using a reinforcement learning (RL) agent. The RL agent is trained as an adversa...

ID: 2508.03783v2 quant-ph, cs.AI, J.2

arXiv PDF

📄 EmoSteer-TTS: Fine-Grained and Training-Free Emotion-Controllable Text-to-Speech via Activation Steering

2025-08-09

Авторы:

Tianxin Xie, Shan Yang, Chenxing Li, Dong Yu, Li Liu

## КОНТЕКСТ И ПРОБЛЕМАТИКА За последние годы технологии Text-to-Speech (TTS) достигли значительных успехов, однако большинство современных систем TTS ограничены в контроле эмоционального тона голоса. Традиционно, эмоции контролируются при помощи дискретных лейблов или специально сконструированных текстовых подсказок, что делает тонкую манипуляцию эмоциями недоступной или нестабильной. Также, эти модели требуют обширных, высококачественных наборов данных для обучения, что создает дополнительные трудности. Эта проблема особенно актуальна для приложений, требующих тонкой эмоциональной настройки речи, таких как виртуальные помощники, системы досуга и образования. Нехватка возможности непрерывного и тонкого контроля эмоционального тона ограничивает возможности этих систем в создании более естественного и привлекательного взаимодействия с пользователями. Кроме того, необходимость в обучении на больших данных увеличивает временные и вычислительные затраты, что делает разработку таких систем менее доступной. В этой статье авторы предлагают решение для достижения непрерывного и тонкого контроля эмоционального тона синтезированной речи без необходимости дополнительного обучения. Это открывает новые возможности для применения TTS в различных областях, где эмоциональное выражение играет ключевую роль. ## ПРЕДЛОЖЕННЫЙ МЕТОД Aвторы представляют EmoSteer-TTS, инновационный подход к тонкому контролю эмоционального тона речи, основанный на концепции Activation Steering. Основная идея заключается в том, что модификация подмножества внутренних активаций в модели TTS, основанной на flow matching, позволяет эффективно изменять эмоциональный тон синтезированной речи. Метод состоит из трех ключевых этапов: активационное извлечение, поиск эмоциональных токенов и настройка во время вывода. Активационное извлечение подразумевает выделение ключевых внутренних представлений модели, которые влияют на эмоциональный тон. Далее, эмоциональные токены идентифицируются и настраиваются для достижения желаемой эмоции. Наконец, во время вывода производится тонкая настройка этих активаций для достижения нужного эмоционального эффекта без необходимости переобучения модели. EmoSteer-TTS может быть легко интегрирован в различные предобученные модели TTS, такие как F5-TTS, CosyVoice2, и E2-TTS, что делает его высоко вертикально используемым. Для получения эффективных векторов направления авторы также создали специальный набор данных с разнообразными эмоциональными выражениями разных говорящих, что позволяет достичь высокого уровня контроля и точности. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности EmoSteer-TTS авторы провели ряд экспериментов, используя разнообразные данные и модели. Они использовали датасеты с различными эмоциональными тонами речи, включая радость, грусть, ярость и нейтральное состояние. Эксперименты демонстрируют, что EmoSteer-TTS позволяет достичь непрерывного и тонкого контроля эмоций в речи, превосходящего состояние искусствующих методов (SOTA). В частности, эксперименты показали, что модификация активаций позволяет не только конвертировать эмоции, но и интерполировать их, а также удалять эмоциональный тон, создавая более гибкий инструмент для манипуляции эмоциями в речи. Результаты показали, что подход EmoSteer-TTS не только эффективен, но и интерпретируемый, позволяя пользователям точно регулировать эмоциональные выражения. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ EmoSteer-TTS имеет широкий круг применений в различных областях, где эмоциональное выражение голоса играет важную роль. Например, в виртуальных помощниках этот метод может улучшить взаимодействие с пользователями, создавая более естественные и эмоционально выразительные ответы. В области образования и досуга EmoSteer-TTS может быть использован для создания более захватывающих и персонализированных опытов. Одним из ключевых преимуществ этого метода является его простота и эффективность. Он не требует дополнительного обучения, что существенно сокращает временные и вычислительные затраты. Кроме того, EmoSteer-TTS может быть интегрирован в существующие системы TTS без каких-либо модификаций, что делает его высоко доступным для разработчиков и исследователей. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ EmoSteer-TTS является первым методом, который достигает непрерывного и тонкого контроля эмоционального тона в речи без необходимости дополнительного обучения. Это открывает новые возможности для применения TTS в различных областях, где эмоциональное выражение играет ключевую роль. В будущем, авторы планируют расширить этот подход для включения более широкого спектра эмоций и улучшить его совместимость с различными моделями TTS. Также, они планируют исследовать возможности использования этого метода в реальном времени для создания более динамичных и адаптивных систем TTS.

Annotation:

Text-to-speech (TTS) has shown great progress in recent years. However, most existing TTS systems offer only coarse and rigid emotion control, typically via discrete emotion labels or a carefully crafted and detailed emotional text prompt, making fine-grained emotion manipulation either inaccessible or unstable. These models also require extensive, high-quality datasets for training. To address these limitations, we propose EmoSteer-TTS, a novel training-free approach, to achieve fine-grained sp...

ID: 2508.03543v2 cs.SD, cs.AI, eess.AS

arXiv PDF

📄 Supervised Dynamic Dimension Reduction with Deep Neural Network

2025-08-09

Авторы:

Zhanye Luo, Yuefeng Han, Xiufan Yu

## КОНТЕКСТ И ПРОБЛЕМАТИКА В современном мире анализа данных и прогнозирования растет важность эффективного управления высокоразмерными данными, особенно при прогнозировании временных рядов. Традиционные методы динамической дименсионной редукции, такие как принципальный компонентный анализ (PCA), часто не учитывают контекст задачи прогнозирования, что может приводить к потере важной информации для дальнейшего анализа. Особенно критично это в ситуациях, когда данные содержат большое количество предикторов, но только некоторые из них имеют значительное влияние на целевую переменную. Существующие подходы к дименсионной редукции, основанные на неконтролируемых методах, не всегда эффективны в выявлении факторов, которые действительно важны для прогнозирования. Кроме того, проблема улучшения интерпретируемости полученных латентных факторов остается открытой. Это ограничивает практическую применимость методов дименсионной редукции в реальных приложениях, где необходимо не только повысить точность прогнозов, но и обеспечить лучшее понимание взаимосвязей между переменными. Предлагается решение этой проблемы путем разработки метода, который бы комбинировал динамическую дименсионную редукцию с надзором (supervised learning) над целевой переменной. Такой подход позволил бы создать целевые предикторы, которые улучшают точность прогнозов, одновременно обеспечивая интерпретируемость результатов. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают метод под названием **Supervised Deep Dynamic Principal Component Analysis (SDDP)**, который интегрирует целевую переменную и отложенные наблюдения (lagged observations) в процесс выделения факторов. Данный метод состоит из нескольких этапов. В первую очередь, используется временная нейронная сеть (temporal neural network) для конструирования целевых предикторов. Эти предикторы формируются путем масштабирования исходных предикторов с учетом их важности для прогнозирования целевой переменной. Таким образом, предикторы с более высоким влиянием на прогноз получают больший вес. Затем, на основе полученных целевых предикторов, применяется принципальный компонентный анализ (PCA) для извлечения **SDDP факторов**. Эти факторы не только уменьшают размерность данных, но также являются более интерпретируемыми, так как они ориентированы на целевую переменную. Далее, на основе этих факторов строится **факторно-увеличенная нелинейная динамическая модель прогнозирования**, которая объединяет различные подходы на основе факторных моделей. Авторы также рассматривают ситуацию, когда некоторые предикторы недоступны (partially observable predictors), и предлагают расширение метода для такого случая. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для проверки эффективности предложенного метода проведены эксперименты на нескольких реальных наборах данных. Авторы использовали различные наборы данных, включая данные из области финансов, экономики и других доменов, где прогнозирование временных рядов является важной задачей. Результаты показали, что метод **SDDP** достигает значительных улучшений в точности прогнозирования по сравнению со стандартными методами, такими как традиционный PCA и другие неконтролируемые методы дименсионной редукции. Кроме того, факторы, полученные с помощью SDDP, оказались более интерпретируемыми, что позволило лучше понять взаимосвязи между предикторами и целевой переменной. В частности, эксперименты показали, что использование целевой переменной в процессе факторизации приводит к более точным и стабильным прогнозам. Было также показано, что метод эффективен даже в случае частично наблюдаемых данных, где некоторые предикторы могут быть недоступны. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Метод **SDDP** имеет широкое применение в различных областях, где важна точность прогнозирования временных рядов. Это может быть финансовый сектор, где необходимо прогнозирование цен на активы, экономический сектор для прогнозирования индикаторов, или даже в области медицины для прогнозирования заболеваний на основе временных данных. Одним из главных преимуществ метода является его интерпретируемость. Факторы, полученные с помощью SDDP, не только повышают точность прогнозов, но также позволяют лучше понять, какие предикторы важны для данной задачи. Это может быть особенно полезно в ситуациях, когда необходимо объяснить причины полученных прогнозов. Кроме того, предложенный метод может быть применен в ситуациях, когда данные неполные или частично наблюдаемые, что делает его более универсальным в реальных приложениях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе был представлен метод **Supervised Deep Dynamic Principal Component Analysis (SDDP)**, который улучшает точность прогнозирования временных рядов путем интеграции целевой переменной в процесс дименсионной редукции. Этот метод не только повышает точность прогнозов, но также обеспечивает более интерпретируемые факторы, что делает его применимым в различных практических сценариях. Будущие исследования могут фокусироваться на дальнейшем улучшении метода, включая его адаптацию для более сложных типов данных, таких как неструктурированные данные, или расширение его применения на более широкий класс задач прогнозирования. Также могут быть исследованы возможности интеграции других техник дименсионной редукции и нейронных сетей для дальнейшего повышения эффективности.

Annotation:

This paper studies the problem of dimension reduction, tailored to improving time series forecasting with high-dimensional predictors. We propose a novel Supervised Deep Dynamic Principal component analysis (SDDP) framework that incorporates the target variable and lagged observations into the factor extraction process. Assisted by a temporal neural network, we construct target-aware predictors by scaling the original predictors in a supervised manner, with larger weights assigned to predictors ...

ID: 2508.03546v2 stat.ML, cs.AI, cs.LG

arXiv PDF

📄 Agency, Affordances, and Enculturation of Augmentation Technologies

2025-08-09

Авторы:

Ann Hill Duin, Isabel Pedersen

**Резюме** В статье рассматривается проблема неоднозначности терминологии в исследованиях машинного обучения (ML) и искусственного интеллекта (AI). Авторы используют классификацию WIPO Categorization of AI Technologies Scheme для уточнения понятий, что помогает разграничить широкий спектр технологий AI. Отдельное внимание уделяется развитию нечеловеческих агентов в промышленности, которое является ключевым фактором в распространении augmentation technologies. Авторы исследуют, как маркетинг и коммуникация способствуют привлечению пользователей к новым технологиям, включая концепции Metaverse и расширенной реальности (AR). Они подчеркивают, что социальные и культурные факторы важны для успешного внедрения augmentation technologies в повседневную жизнь. Основные выводы: 1) Развитие AI приводит к переменам в социальных и технологических сферах; 2) Маркетинг и коммуникация играют ключевую роль в enculturation новых технологий; 3) Необходимо развитие критического мышления для оценки последствий распространения augmentation technologies.

Annotation:

Augmentation technologies are undergoing a process of enculturation due to many factors, one being the rise of artificial intelligence (AI), or what the World Intellectual Property Organization (WIPO) terms the AI wave or AI boom. Chapter 3 focuses critical attention on the hyped assumption that sophisticated, emergent, and embodied augmentation technologies will improve lives, literacy, cultures, arts, economies, and social contexts. The chapter begins by discussing the problem of ambiguity wit...

ID: 2508.04725v1 cs.CY, cs.AI

arXiv PDF

1
2
3364
3365
3366
3367
3368
3402
3403

Показано 33651 - 33660 из 34022 записей