📚 Саммари научных статей из arXiv

Найдено 1687 результатов по запросу 'cs.AI, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Pushdown Reward Machines for Reinforcement Learning

2025-08-13

Авторы:

Giovanni Varricchione, Toryn Q. Klassen, Natasha Alechina, Mehdi Dastani, Brian Logan, Sheila A. McIlraith

## Контекст Решение проблем в многих прикладных областях требует эффективного использования методов управления, в которых мотивация поведения агента определяется целевыми функциями. Одним из подходов является управление с поощрениями (Reinforcement Learning, RL). Однако, обычные модели RL не всегда подходят для задач, требующих учета временных структур в поведении агента. Одним из решений этой проблемы является использование Reward Machines (RMs), которые могут представлять сложные целевые функции в виде регулярных языков. Тем не менее, существуют задачи, требующие учета более высокоуровневых структур, которые находятся за пределами возможностей RMs. Таким образом, целью исследования является расширение моделей RL, чтобы они могли эффективно решать такие задачи. ## Метод Pushdown Reward Machines (pdRMs) — это расширение обычных Reward Machines, основанное на **deterministic pushdown automata (DPDA)**. Эти автоматы могут представить более сложные языки, включая такие, допускающие неограниченные вложенности и глубины временных структур, чем это возможно в оригинальных RMs. Мы предлагаем два варианта политик, использующих pdRM: полный доступ к стеку и ограниченный доступ к верхним $k$-символам стека. Для проверки оптимальности политик мы предоставляем алгоритм, определяющий, достигают ли две политики одинаковую оптимальную суммарную награду в заданной среде. Мы также приводим теоретические результаты о выразительных возможностях pdRMs и анализируем сложность пространственных ресурсов. ## Результаты Мы проводим эксперименты, применяя pdRMs к задачам, требующим учета временных структур. Для задач, которые могут быть представлены в контексте-фри языках, мы показываем, что pdRMs позволяют значительно увеличить эффективность обучения по сравнению с традиционными RMs. Мы также проверяем точность вычисления оптимальности политик на различных наборах данных. Эксперименты показывают, что pdRMs могут эффективно решать задачи, которые требуют учёта более сложных структур времени, чем это возможно в стандартных Reward Machines. ## Значимость Предлагаемый подход может быть применен в различных прикладных областях, где необходимо учитывать временные структуры, такие как роботизированные системы, квантовые вычисления и анализ текстов. Одним из главных преимуществ pdRMs является их возможность эффективно учитывать временные структуры, что дает значительное преимущество над традиционными RMs. Мы также показываем, как эта модель может быть использована в сложных ситуациях, где требуется оптимальное решение по задачам, включающим временные зависимости. Потенциальное влияние заключается в том, что pdRMs могу

Annotation:

Reward machines (RMs) are automata structures that encode (non-Markovian) reward functions for reinforcement learning (RL). RMs can reward any behaviour representable in regular languages and, when paired with RL algorithms that exploit RM structure, have been shown to significantly improve sample efficiency in many domains. In this work, we present pushdown reward machines (pdRMs), an extension of reward machines based on deterministic pushdown automata. pdRMs can recognize and reward temporall...

ID: 2508.06894v1 cs.AI, cs.LG, 68T05

arXiv PDF

📄 Automated Formalization via Conceptual Retrieval-Augmented LLMs

2025-08-13

Авторы:

Wangyue Lu, Lun Du, Sirui Li, Ke Weng, Haozhe Sun, Hengyu Liu, Minghe Yu, Tiancheng Zhang, Ge Yu

## Контекст Интерактивные теоремпроверы (ITPs) требуют ручного формализации, которая трудоемка и требует специальной экспертной подготовки. Рост интереса к искусству математического программирования привел к развитию автоматизированных методов формализации, которые могут существенно сократить время и усилия для формализации. Однако эти методы сталкиваются с двумя ключевыми проблемами: потенциальной халтурностью (например, неопределенные предикаты, неправильное использование символов, несовместимость версий) и семантическим пробелом, вызванным неясностью или отсутствием подробных данных в естественном языке. Эти проблемы значительно ограничивают эффективность автоматизации. Работа статьи призвана решить эти задачи, предлагая новую модель, которая будет улучшать работу существующих автоматизированных инструментов. ## Метод Мы предлагаем разработать CRAMF (Concept-driven Retrieval-Augmented Mathematical Formalization), которая улучшает LLM-based autoformalizer. Работа CRAMF основывается на поисковой методологии, которая позволяет внедрять контекстные сигналы в процесс генерации кода. Мы предлагаем автоматическую конструкцию классификации математических понятий и их определений из Mathlib4 — стандартной математической библиотеки Lean 4. Для улучшения точности и устранения проблемы полиморфизма мы предлагаем стратегию контекстного запроса, используя дополнительные доменные сигналы. Также мы разрабатываем двухканальную стратегию поиска с повторным оцениванием, чтобы обеспечить высокую точность поиска. ## Результаты Мы проводим эксперименты на стандартных тестовых наборах miniF2F, ProofNet и произвольном AdvancedMath бенчмарке. CRAMF показывает последовательные улучшения в точности формализации. Мы сравниваем результаты с текущими стандартными методами и показываем, что CRAMF добивается до 62.1% улучшения в точности и 29.9% в среднем. Это указывает на последовательность CRAMF в сильном значительном улучшении существующих методов. ## Значимость Мы отмечаем, что CRAMF может быть широко применена в сфере автоматизированной формализации математических задач. Эта модель может быть применена в широких областях, включая формализацию математических теорий, автоматическое проверивание теорем, а также в образовательных целях, помогая учащимся и экспертам в математике. Мы также отмечаем, что CRAMF может повысить эффективность работы существующих систем, таких как Lean 4 и другие ITPs, и улучшить пользовательский опыт. ## Выводы Мы представляем CRAMF, новую модель для автоматизированной формализации, которая позволяет улучшить методы, исполь

Annotation:

Interactive theorem provers (ITPs) require manual formalization, which is labor-intensive and demands expert knowledge. While automated formalization offers a potential solution, it faces two major challenges: model hallucination (e.g., undefined predicates, symbol misuse, and version incompatibility) and the semantic gap caused by ambiguous or missing premises in natural language descriptions. To address these issues, we propose CRAMF, a Concept-driven Retrieval-Augmented Mathematical Formaliza...

ID: 2508.06931v1 cs.AI, cs.LG

arXiv PDF

📄 Intrinsic Explainability of Multimodal Learning for Crop Yield Prediction

2025-08-13

Авторы:

Hiba Najjar, Deepak Pathak, Marlon Nuske, Andreas Dengel

-------------------------------------------- ## Контекст ### Область исследования Многомодальное обучение (Multimodal Learning) позволяет использовать различные типы данных для решения комплексных задач, в том числе в области агрономии. В агрономии это применение необходимо для точного прогнозирования урожая, используя информацию из различных источников, таких как спутниковые изображения, погодные данные, карты уклонения терриена и характеристики почвы. Однако, применение таких архитектур часто приводит к усложнению моделей и ухудшению их интерпретируемости. ### Проблемы и мотивация Существующие модели, применяемые к задаче прогнозирования урожая, часто сталкиваются с проблемами в интерпретации результатов. Это ограничивает их удобство для использования в реальных условиях сельскохозяйственного производства. Необходимо разработать методы, которые бы не только повысили точность прогнозирования, но и обеспечили понятную интерпретацию результатов модели. ### Мотивация В данном исследовании рассматривается применение трансформер-базных моделей для решения задачи прогнозирования урожая на уровне подполя (subfield). Эти модели обладают естественной возможностью объяснения (intrinsic explainability), что позволяет детально анализировать их решения. Целью является сравнительный анализ различных способов объяснения результатов, а также оценка эффективности трансформер-моделей в задаче урожайности. -------------------------------------------- ## Метод ### Архитектура и Методы Для обучения использовались модели на базе трансформеров, которые умеют обрабатывать многомодальные данные. Использовались данные из четырех модальностей: спутниковые изображения, погодные данные, карты террейна и характеристики почвы. Модели были обучены на больших данных, включающих различные культуры, регионы и годы. ### Оценка Объясняемости Для оценки причинности решений использовались два метода: Attention Rollout (AR) и Generic Attention (GA). Также был разработан новый метод, Weighted Modality Activation (WMA), для оценки вклада отдельных модальностей в прогноз. Эти методы были сравнены с Shapley Value Sampling (SVS), подходом, основанным на математических играх. ### Оценка Точности Для оценки качества прогноза урожая использовался показатель R2, который измеряет точность по отношению к истинным данным. Модели были сравнивались с другими архитектурами, такими как глубокие сверточные и рекуррентные сети. -------------------------------------------- ## Результаты ### Эксперименты Были проведены эксперименты на широкомасштабных данных, которые включали различные культуры, регионы и годы. Модели были сравнивались на основе R2, а также с помощью метрик, оценивающих интерпретируемость решений. ### Результаты Оценки Объясняемости

Annotation:

Multimodal learning enables various machine learning tasks to benefit from diverse data sources, effectively mimicking the interplay of different factors in real-world applications, particularly in agriculture. While the heterogeneous nature of involved data modalities may necessitate the design of complex architectures, the model interpretability is often overlooked. In this study, we leverage the intrinsic explainability of Transformer-based models to explain multimodal learning networks, focu...

ID: 2508.06939v1 cs.AI, cs.LG

arXiv PDF

📄 Neural Beam Field for Spatial Beam RSRP Prediction

2025-08-13

Авторы:

Keqiang Guo, Yuheng Zhong, Xin Tong, Jiangbin Lyu, Rui Zhang

## Контекст Spatial beam RSRP (Reference Signal Received Power) prediction является ключевым аспектом управления битами в сетях с многопользовательским доступом, таких как 5G и 6G. Это необходимо для оптимизации связи, уменьшения задержек и повышения эффективности использования ресурсов. Однако, существуют ряд проблем, таких как высокий оверхед в измерениях, быстрые изменения каналов и необходимость интерактивного обучения. Избыточная зависимость от экспериментальных данных и ограниченная интерпретируемость многих существующих подходов, таких как DNNs или table-based CKMs (channel knowledge maps), становится исключительно острой. Необходимы новые подходы, которые объединялиientificать, эффективно обучаться и легко адаптироваться к новым условиям. ## Метод Наш подход, Neural Beam Field (NBF), является гибридным фреймворком, который объединяет физический инсайт с глубоким обучением. Мы предлагаем идею Multi-path Conditional Power Profile (MCPP), которая моделирует пространственную зависимость RSRP с использованием аналитического подхода. Central to NBF is the use of a decoupled "blackbox-whitebox" design: глубокая нейронная сеть на основе Transformer учится моделировать MCPP на основе спарсиных данных позиций и измерений, в то время как физический модуль аналитически определяет статистики RSRP. Для улучшения адаптивности и скорости обучения мы ввёли Pretrain-and-Calibrate (PaC) strategy, которая включает использование предварительного обучения на основе рэй-трейсинга и локальной калибровки с данными RSRP. Это проектирование обеспечивает лучшую точность, эффективность и универсальность по сравнению с классическими подходами. ## Результаты Мы провели обширные эксперименты на различных сетевых симуляциях, используя реальные данные RSRP. Наши результаты показали, что NBF превосходит существующие CKM-based и DNN-based подходы во всех ключевых аспектах: точность предсказания, эффективность обучения и универсальность. Например, NBF показывает снижение ошибки в предсказании на 20-30% по сравнению с CKM и 10-15% по сравнению с нейронными сетями. Также, наша модель значительно меньше в размере и быстрее в обучении, что делает её применимую к реальным сетям. ## Значимость Прототип Neural Beam Field может быть применен в различных областях, таких как beamforming, intelligent scheduling и resource allocation в 5G/6G сетях. Он обеспечивает более точное управление пространственными битами, уменьшает оверхед в измерениях и позволяет быстрее адаптироваться к изменениям канала. Этот подход также может способствовать уменьшению использования энергии и повышению качества связи, что является ключевым фактором для надежности и эффективности сетей. ## Выводы Мы представили Neural Beam Field как эффективный гибрид

Annotation:

Accurately predicting beam-level reference signal received power (RSRP) is essential for beam management in dense multi-user wireless networks, yet challenging due to high measurement overhead and fast channel variations. This paper proposes Neural Beam Field (NBF), a hybrid neural-physical framework for efficient and interpretable spatial beam RSRP prediction. Central to our approach is the introduction of the Multi-path Conditional Power Profile (MCPP), which bridges site-specific multipath pr...

ID: 2508.06956v1 cs.IT, cs.AI, cs.LG, math.IT

arXiv PDF

📄 MASteer: Multi-Agent Adaptive Steer Strategy for End-to-End LLM Trustworthiness Repair

2025-08-13

Авторы:

Changqing Li, Tianlin Li, Xiaohan Zhang, Aishan Liu, Li Pan

#### Контекст Large Language Models (LLMs) становятся все более важными для решения различных задач, но столкнулись с проблемами, связанными с надежностью и доверием к результатам. Ошибки, связанные с предрассудками, ошибками в логике и несоответствиями фактов, остаются значительной проблемой. Обычные подходы, такие как supervised fine-tuning (SFT) и reinforcement learning with human feedback (RLHF), требуют больших затрат на время и ресурсы, что делает их менее эффективными для быстрого и гибкого использования. Другие подходы, такие как prompt engineering, либо недостаточно устойчивы, либо не могут масштабироваться для сложных сценариев. Репрезентационное обучение, которое использует внедрение целевых векторов для управления поведением модели, представляет собой легковесный и не требующий обучения подход. Тем не менее, существующие решения ограничиваются фиксированными стратегиями и не поддерживают автоматизацию и адаптацию. Мы предлагаем MASteer, первый полностью адаптивный фреймворк для ремонта надежности LLMs, который автоматизирует и оптимизирует процесс ремонта надежности. #### Метод MASteer состоит из двух основных компонентов: AutoTester и AutoRepairer. AutoTester является многоагентной системой, которая генерирует разнообразные, высококачественные сэмплы для тестирования и настройки модели. Эти сэмплы создаются с учетом различных сценариев и потребностей разработчиков. AutoRepairer, в свою очередь, создает адаптивные стратегии управления, используя анкорные векторы для автоматического выбора стратегии во время выполнения. Это делает процесс управления более гибким и автоматизированным. MASteer использует принципы representation engineering для внедрения концептуальных векторов во время выполнения, чтобы корректировать поведение модели в зависимости от контекста. Это позволяет MASteer легко адаптироваться к различным задачам и сценариям без необходимости дорогостоящих тренировочных процессов. #### Результаты Мы провели эксперименты на нескольких наборах данных, включая LLaMA-3.1-8B-Chat и Qwen-3-8B-Chat. MASteer показал существенные улучшения в метриках надежности по сравнению с текущими подходами. На LLaMA-3.1-8B-Chat, MASteer повысил производительность на 15,36%, а на Qwen-3-8B-Chat - на 4,21%. Эти результаты демонстрируют высокую эффективность MASteer в устранении проблем надежности без потери общих возможностей модели. Было также продемонстрировано, что MASteer значительно улучшает устойчивость и общую гибкость модели в различных сценариях. Эти результаты подтверждают мощь MASteer в создании легковесного, эффективного и адаптивного инструмента для ремонта надежности LLMs. #### Значимость MASteer предлагает новый подход к решению проблемы надежно

Annotation:

Large Language Models (LLMs) face persistent and evolving trustworthiness issues, motivating developers to seek automated and flexible repair methods that enable convenient deployment across diverse scenarios. Existing repair methods like supervised fine-tuning (SFT) and reinforcement learning with human feedback (RLHF) are costly and slow, while prompt engineering lacks robustness and scalability. Representation engineering, which steers model behavior by injecting targeted concept vectors duri...

ID: 2508.06963v1 cs.AI, cs.LG

arXiv PDF

📄 Consensus-based Decentralized Multi-agent Reinforcement Learning for Random Access Network Optimization

2025-08-13

Авторы:

Myeung Suk Oh, Zhiyao Zhang, FNU Hairi, Alvaro Velasquez, Jia Liu

## Контекст В современном мире, где беспроводные устройства взаимодействуют в узкозапростоватых сетях, становится важной задачей оптимизация сетевого доступа, чтобы обеспечить постоянное подключение и высокую скорость передачи данных. Одной из ключевых стратегий является рандомный доступ (RA), который предназначен для обеспечения эффективной обработки непредсказуемого трафика с различных устройств. Однако существуют значительные затруднения в разработке эффективных протоколов для управления доступом к сети, так как необходимо сбалансировать минимизацию коллизий и обеспечение справедливости в передаче данных. Ранее были предложены многоагентные методы глубокого обучения (MARL) с централизованным обучением и децентрализованной исполнением (CTDE) для решения этой задачи. Однако эти методы требуют значительного объема информационных данных для обучения, что может оказаться неэффективным в реальных сетях. Наша мотивация заключается в разработке децентрализованного метода, который уменьшает нагрузку на сеть, но при этом обеспечивает эффективность в управлении доступом к сети. ## Метод Мы предлагаем децентрализованную машинное обучение с несколькими агентами (MARL), где каждое устройство в сети является отдельным агентом, который работает независимо и предпринимает решения на основе локальной информации. Наша методология основывается на архитектуре актера-критика (AC), где каждый агент обучается своим поведению в индивидуальном порядке. Чтобы уменьшить объем передаваемых данных, мы предлагаем обмен только локальными наградами между устройствами. Это позволяет уменьшить количество информации, необходимого для синхронизации сети. Мы также привносим теоретическую базу для доказательства глобального сходимости нашей модели, которая гарантирует высокую производительность в рандомном доступе. ## Результаты Мы провели эксперименты на моделировании сетевого доступа с рандомным доступом, используя разные базы данных и настройки. Наши результаты показывают, что наш метод по сравнению с базовыми моделями с централизованным обучением дает значительное повышение эффективности в плане коллизий и справедливости в передаче. Мы также проверили нашу модель в разных сетевых условиях, включая сети с высоким трафиком и многочисленными устройствами. Результаты показали, что наша децентрализованная модель демонстрирует повышенную скорость реакции и стабильность в сравнении с другими алгоритмами. ## Значимость Наш алгоритм может быть применен в различных областях, где необходимо эффективное управление доступом к сети, например, в коммуникационных сетях

Annotation:

With wireless devices increasingly forming a unified smart network for seamless, user-friendly operations, random access (RA) medium access control (MAC) design is considered a key solution for handling unpredictable data traffic from multiple terminals. However, it remains challenging to design an effective RA-based MAC protocol to minimize collisions and ensure transmission fairness across the devices. While existing multi-agent reinforcement learning (MARL) approaches with centralized trainin...

ID: 2508.07001v1 cs.NI, cs.AI, cs.LG

arXiv PDF

📄 Neural Channel Knowledge Map Assisted Scheduling Optimization of Active IRSs in Multi-User Systems

2025-08-13

Авторы:

Xintong Chen, Zhenyu Jiang, Jiangbin Lyu, Liqun Fu

## Контекст Современные сети связи сталкиваются с вопросами повышения эффективности использования ресурсов, улучшения качества обслуживания и снижения задержек. Одним из актуальных решений является использование Intelligent Reflecting Surfaces (IRSs), которые могут динамически изменять распространение сигналов для оптимизации системной производительности. Однако IRSs сталкиваются с рядом проблем, включая высокую сложность задач распределения каналов в многопользовательских системах, необходимость точного канального моделирования и снижения трафика при передаче данных. Недостаточное понимание этих проблем приводит к затруднениям в оптимальном использовании IRSs в реальных сетях. ## Метод Разработанное решение основывается на использовании Neural Channel Knowledge Map (CKM), который активно использует исторические данные о каналах и пропускной способности, связанные с положениями пользователей. Для точного прогнозирования характеристик канала и производительности сети развиты две различные сети: LPS-Net и SE-Net. LPS-Net предсказывает статистические характеристики мощности сигнала, а SE-Net — предсказывает эргодическую пропускную способность. Также предложен алгоритм Stable Matching-Iterative Balancing (SM-IB), который эффективно решает задачу многопользовательской задачи распределения каналов. ## Результаты Использованные эксперименты показали, что предложенный подход существенно повышает точность прогнозирования канала и производительности сети. На основе исторических данных, таких как положение пользователей и их параметры канала, прогнозирование производительности IRSs улучшилось, что позволяет быстрее и эффективнее принимать решения о распределении ресурсов. Также SM-IB-алгоритм эффективно сокращает сложность системы и достигает близкой к оптимальной производительности. ## Значимость Решение предлагает значительные преимущества для сетей связи, включая увеличение пропускной способности, сокращение задержек и улучшение качества обслуживания. Это может быть применено в сценариях, таких как 5G/6G-сети, и для улучшения общей эффективности систем. Благодаря использованию DNNs и глубокого обучения, этот подход может быть применен в различных сценариях с многопользовательскими сетями, где необходима высокая скорость и точность процессов оптимизации канала. ## Выводы Разработанный подход с Neural CKM и SM-IB-алгоритмом продемонстрировал свою эффективность в решении ключевых задач в многопользовательских IRS-системах. Будущие исследования будут направлены на улучшение точности прогнозирования, расширение применений к более сложным сетевым сценариям и исследование способов дальнейшего уменьшения сложности распределения каналов

Annotation:

Intelligent Reflecting Surfaces (IRSs) have potential for significant performance gains in next-generation wireless networks but face key challenges, notably severe double-pathloss and complex multi-user scheduling due to hardware constraints. Active IRSs partially address pathloss but still require efficient scheduling in cell-level multi-IRS multi-user systems, whereby the overhead/delay of channel state acquisition and the scheduling complexity both rise dramatically as the user density and c...

ID: 2508.07009v1 cs.IT, cs.AI, cs.LG, math.IT

arXiv PDF

📄 Whisfusion: Parallel ASR Decoding via a Diffusion Transformer

2025-08-13

Авторы:

Taeyoun Kwon, Junhyuk Ahn, Taegeun Yun, Heeju Jwa, Yoonchae Choi, Siwon Park, Nam-Joon Kim, Jangchan Kim, Hyun Gon Ryu, Hyuk-Jae Lee

## Контекст Поиск эффективных решений для автоматического распознавания речи (ASR) является ключевым заданием в современной технике, особенно в задачах необходимости реального времени, таких как реального времени генерации субтитров и транскрибирования мероприятий. Несмотря на прогресс в этой области, существуют серьезные вызовы, связанные с тем, чтобы достичь низкой задержки и высокой точности в реальном времени. Традиционные последовательные авторегрессионные (AR) декодеры часто сталкиваются с проблемой задержек из-за того, что каждый токен генерируется последовательно. Неавторегрессионные (NAR) методы, с другой стороны, снимают эту задержку но не всегда обеспечивают высокую точность. Этот контекст поднимает вопрос о создании архитектур, которые объединяют выгоды архитектур AR и NAR для решения задачи ASR. ## Метод Whisfusion представляет собой инновационный подход к решению этой проблемы, объединяя предварительно обученный Whisper-encoder (текстовой модели) с диффузионным декодером (для генерации речи). Диффузионный подход отличается тем, что он предполагает работу с всем акустическим контекстом одновременно в каждом шаге декодирования, что позволяет решить проблему задержек, связанных с AR-декодерами. Для улучшения понимания между двумя моделями (текстовой и звуковой) в Whisfusion введена лёгкая сеть cross-attention adapter, которая позволяет эффективно изменять репрезентации данных. Также введена новая стратегия многошагового декодирования, которая позволяет увеличить число кандидатов для поиска токена, увеличивая точность без существенного влияния на скорость работы. ## Результаты Для оценки эффективности Whisfusion проводились эксперименты с использованием данных из набора LibriSpeech (960 часов). Это позволило сравнить результаты с другими моделями, включая Whisper-tiny. Результаты показали, что Whisfusion достигает ниже среднего Word Error Rate (WER) в сравнении с Whisper-tiny (8.3% vs. 9.7%), при этом сохраняя почти одинаковую задержку для коротких аудиофрагментов. Особенно заметное преимущество Whisfusion проявляется при работе с длинными аудиозаписями, где оно значительно ускоряется по сравнению с AR-декодерами, достигая до 2.6x быстрее. Эти результаты показывают, что Whisfusion может стать эффективной альтернативой для решения задач ASR в сценариях с длинными аудио. ## Значимость Whisfusion открывает новые перспективы для ASR-систем, особенно в области реального времени, где необходима высокая скорость и точность. Он может быть применен в различных сферах, включая реального времени генерацию субтитров, транскрибирование мероприятий и устройства с низким потреблением ресурсов

Annotation:

Fast Automatic Speech Recognition (ASR) is critical for latency-sensitive applications such as real-time captioning and meeting transcription. However, truly parallel ASR decoding remains challenging due to the sequential nature of autoregressive (AR) decoders and the context limitations of non-autoregressive (NAR) methods. While modern ASR encoders can process up to 30 seconds of audio at once, AR decoders still generate tokens sequentially, creating a latency bottleneck. We propose Whisfusion,...

ID: 2508.07048v1 cs.SD, cs.AI, cs.LG, eess.AS

arXiv PDF

📄 Explainability-in-Action: Enabling Expressive Manipulation and Tacit Understanding by Bending Diffusion Models in ComfyUI

2025-08-13

Авторы:

Ahmed M. Abuzuraiq, Philippe Pasquier

## Контекст Область исследования Explainable AI (XAI) в креативных контекстах фокусируется на создании моделей, которые не только являются черными ящиками, но также интерактивными инструментами, позволяющими участию в процессе творчества. Известно, что существующие крупные текстово-картинные модели, такие как текст-к-изображению диффузионные модели, часто трудно понять и корректировать из-за их сложности и автоматизма. Это ограничивает возможности художников для изменения и управления процессом генерирования изображений. Однако именно эта возможность модификации является ключевой для поддержки творческой практики. В нашем исследовании мы рассматриваем возможности, которые могут быть сделаны доступными через транспарентность моделей и их модификацию, чтобы позволить художникам взаимодействовать с моделью на более глубоком уровне. Наша мотивация заключается в том, чтобы создать подход, который бы стал более творческим, гибким и доступным творческим профессионалам. ## Метод Мы предлагаем "craft-based approach to explainability", который вдохновлен методом "reflection-in-action" Р. Шона. Этот подход предполагает не только разобрать модель, но и взаимодействовать с ее внутренними компонентами в течение долгого периода времени, изменяя их и изучая результаты. Мы реализовали это в виде плагина для системы ComfyUI, которая представляет собой node-based interface, позволяющий манипулировать различными частями генерирующей модели. Мы использовали различные данные, включая обучающие данные модели, для исследования того, как модификации различных узлов влияют на генерируемые изображения. Данный подход дает художникам возможность "изменять" модель в реальном времени, чтобы более ясно понять, как генерируются результаты. ## Результаты Мы провели эксперименты, в которых художники взаимодействовали с моделью, изменяя разные узлы и изучая их влияние на генерируемые изображения. Наши результаты показали, что художники стали более контролируемыми в процессе генерирования, и они могли быстрее узнавать, как различные части модели влияют на итоговый результат. Мы также обнаружили, что модификация узлов модели может привести к изменению стиля, темы и даже того, что генерируется вообще, что дает художникам большую гибкость в своей работе. ## Значимость Мы убедились, что предлагаемый подход может быть использован в творческих процессах, таких как графическое дизайн, 3D-моделирование, и даже видеосъемка. Мы видим, что такой подход может сделать модели более доступными для художников, улучшить их контроль над процессом генерирования и возможность для творческого эксперимен

Annotation:

Explainable AI (XAI) in creative contexts can go beyond transparency to support artistic engagement, modifiability, and sustained practice. While curated datasets and training human-scale models can offer artists greater agency and control, large-scale generative models like text-to-image diffusion systems often obscure these possibilities. We suggest that even large models can be treated as creative materials if their internal structure is exposed and manipulable. We propose a craft-based appro...

ID: 2508.07183v1 cs.HC, cs.AI, cs.LG, cs.MM, I.2; J.5

arXiv PDF

📄 DySK-Attn: A Framework for Efficient, Real-Time Knowledge Updating in Large Language Models via Dynamic Sparse Knowledge Attention

2025-08-13

Авторы:

Kabir Khan, Priya Sharma, Arjun Mehta, Neha Gupta, Ravi Narayanan

################################# ## Контекст ################################# Large Language Models (LLMs) — это мощные инструменты для обработки текстов, но они имеют существенную проблему: их знания являются статичными и быстро устаревают. Например, при обновлении статистических данных или изменении событий в мире, LLMs не могут адаптироваться без дорогостоящей и время-затратной процедуры переучивания. Такие процессы требуют огромных вычислительных ресурсов и могут привести к задержкам в развертывании обновленных моделей. Кроме того, традиционные методы редактирования знаний могут привести к нежелательным побочным эффектам, таким как неточность или удаление ценной информации. Данная статья рассматривает эту проблему и предлагает фреймворк DySK-Attn, который позволяет LLMs эффективно обновлять свои знания в реальном времени. Основной идеей является использование динамического знаний сграфа (Knowledge Graph, KG), который может быть мгновенно обновлен без необходимости переучивания модели. ################################# ## Метод ################################# Фреймворк DySK-Attn основывается на синергии между LLM и динамическим KG. Главная инновация заключается в использовании динамической спарсед-аттенции (Sparse Knowledge Attention), которая исключает ненужную информацию за счёт выбора только наиболее связанных фактов с запросом. В свою очередь, спарсед-аттенция работает примерно следующим образом: сначала выполняется поиск по базе знаний с использованием ключевых слов запроса. Затем, на основе полученных результатов, выбирается наиболее подходящий набор фактов, который после этого передаётся LLM для генерации ответа. Эта стратегия позволяет избежать вычислительной сложности десятичной аттенции к большой базе знаний, увеличивая вместо этого эффективность и точность полученных ответов. Также, DySK-Attn включает гибкие механизмы для обновления KG без перестройки модели от начала до конца. Это достигается за счёт интеграции специальных модулей обновления, которые могут быть применены непосредственно во время работы модели. ################################# ## Результаты ################################# Для оценки эффективности DySK-Attn проведено рядовое экспериментальное исследование на задачах время-зависимого реагирования (time-sensitive question-answering). Использовались три типа датасетов: 1. **Новости**: для тестирования модели в области новостных событий. 2. **Политические события**: для проверки точности в терминах политических данных. 3. **Нефтегазовые рынки**: для проверки работы модели в области финансовых данных. В результате, DySK-Attn показала значительный выигрыш в точности ответов и вычислительной эффективности по сравнению с традиционными RAG-моделями и техниками моделирования. Например, в задаче обновления дан

Annotation:

Large Language Models (LLMs) suffer from a critical limitation: their knowledge is static and quickly becomes outdated. Retraining these massive models is computationally prohibitive, while existing knowledge editing techniques can be slow and may introduce unforeseen side effects. To address this, we propose DySK-Attn, a novel framework that enables LLMs to efficiently integrate real-time knowledge from a dynamic external source. Our approach synergizes an LLM with a dynamic Knowledge Graph (KG...

ID: 2508.07185v1 cs.CL, cs.AI, cs.LG, I.2.7; H.3.3; H.2.8

arXiv PDF

1
2
158
159
160
161
162
168
169

Показано 1591 - 1600 из 1687 записей