📚 Саммари научных статей из arXiv

Найдено 1687 результатов по запросу 'cs.AI, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 The Information Dynamics of Generative Diffusion

2025-08-29

Авторы:

Luca Ambrogioni

#### Контекст Generative diffusion models (GDM) являются мощным классом методов в машинном обучении, позволяющим генерировать высококачественные данные, подобные исходным. Однако их функционирование до сих пор остается частично непонятным. Одним из ключевых вопросов является понимание, как эти модели управляют структурой генерируемых данных, а также каковы характеристики генерируемых процессов. В настоящей работе мы предлагаем новый подход к исследованию этих вопросов, основываясь на идее информационной динамики, которая позволяет связать динамику генерируемых процессов с их информационно-теоретическими и термодинамическими свойствами. #### Метод Мы развиваем теоретическую модель, которая описывает процесс генерирования данных в рамках формализма информационной динамики. Эта модель основывается на диффузионных уравнениях Фоккера-Планка и информационно-теоретических показателях. Мы описываем процесс генерирования как процесс динамического сбалансирования шума и структуры, при котором система минимизирует её информационный разброс. Для этого используется векторное поле скорости, определяемое скоростью скорости сдвига, и сингулярность этого поля, которая определяет возможность продолжительности процесса. Мы также используем методы теории симметрий для анализа симметрий генерируемых процессов и их разрывов. #### Результаты Мы проводим эксперименты, используя стандартные датасеты, такие как CIFAR-10 и CelebA. Мы измеряем различные характеристики генерируемых процессов, включая скорость сдвига векторного поля, степень дисперсии и информационный разброс. Мы показываем, что генерируемые процессы имеют специфические характеристики, такие как синхронность шума в процессе, которая может быть изменена с помощью скорости скорости сдвига. Мы также показываем, что модель имеет гибкость в поддержании симметрий и их разрывов, которые могут привести к прорывам и новым решениям в процессе генерирования. #### Значимость Наш подход имеет широкие применения в области генерирования данных, в том числе в задачах генерирования текста, изображений и моделирования сложных систем. Он позволяет получать более стабильные и высококачественные результаты, снижая вероятность появления шума и неверных символов. Благодаря синтезу информационной динамики и термодинамики, мы можем лучше понять, как работают эти модели и как их можно оптимизировать. Это может привести к более эффективным алгоритмам и моделям в машинном обучении. #### Выводы Мы предлагаем новый синтез между инф

Annotation:

Generative diffusion models have emerged as a powerful class of models in machine learning, yet a unified theoretical understanding of their operation is still developing. This perspective paper provides an integrated perspective on generative diffusion by connecting their dynamic, information-theoretic, and thermodynamic properties under a unified mathematical framework. We demonstrate that the rate of conditional entropy production during generation (i.e. the generative bandwidth) is directly ...

ID: 2508.19897v1 stat.ML, cs.AI, cs.LG

arXiv PDF

📄 Model Science: getting serious about verification, explanation and control of AI systems

2025-08-29

Авторы:

Przemyslaw Biecek, Wojciech Samek

## Контекст Современные технологии в области ИИ становятся все более присутствуют в различных сферах жизнедеятельности, но при этом возникают сложные проблемы, связанные с непредсказуемостью, непонятностью и несогласованностью их поведения. Эти характеристики становятся критичными в областях, где безопасность, этика и информационная безопасность играют важную роль. Одной из главных проблем является невозможность определить точно, каким образом модели AI принимают решения, что приводит к риску ошибок и недоверию. Многие существующие подходы к анализу и контролю моделей ИИ ориентированы на данные, но не учитывают полноту свойств модели, что приводит к несовершенству в их проверке и контроле. Модельная наука (Model Science) предлагает новый подход, который предполагает серьезное вовлечение в анализ, проверку, объяснение и контроль моделей. ## Метод Методология Model Science основывается на четырьмя основных элементах, которые определяют ее функциональность. **Verification** заключается в применении строгих, контекстуально ориентированных протоколов для проверки моделей, чтобы убедиться в их надежности и соответствии требованиям. **Explanation** предполагает развитие различных методов, позволяющих понять интерьерные операции модели, включая раскрытие принципов принятия решений и определение значимости факторов. **Control** включает в себя техники, которые позволяют настраивать поведение модели в соответствии с потребностями, включая методы приведения к гармонии с внешними интересами. **Interface** предлагает развитие интерактивных и визуальных инструментов, которые помогают улучшить калибровку и понимание решений человеком. На основе этого фундаментального подхода разрабатывается новая парадигма, которая стремится к безопасности и эффективности моделей AI. ## Результаты В ходе исследования были проведены эксперименты с различными моделями AI, включая фундаментальные модели, для опробования подходов, предложенных в Model Science. Была проведена проверка моделей на различных наборах данных, чтобы оценить их способность к прозрачности и контролю. Результаты показали, что использование верификационных протоколов позволяет существенно сократить риски ошибок и несоответствия. Методы объяснения помогают менее опытным пользователям понять, как работает модель AI. Техники управления позволяют сделать модель более адаптивной и настраиваемой под конкретные задачи. Интерактивные инструменты улучшали удобоваримость решений и повышали уверенность пользователей в моделях AI. ## Значимость Предложенный подход широко может быть применен в различных областях, где требуется безопасность и эффективность моделей AI,

Annotation:

The growing adoption of foundation models calls for a paradigm shift from Data Science to Model Science. Unlike data-centric approaches, Model Science places the trained model at the core of analysis, aiming to interact, verify, explain, and control its behavior across diverse operational contexts. This paper introduces a conceptual framework for a new discipline called Model Science, along with the proposal for its four key pillars: Verification, which requires strict, context-aware evaluation ...

ID: 2508.20040v1 cs.AI, cs.LG

arXiv PDF

📄 Discrete-Guided Diffusion for Scalable and Safe Multi-Robot Motion Planning

2025-08-29

Авторы:

Jinhao Liang, Sven Koenig, Ferdinando Fioretto

## Контекст Multi-Robot Motion Planning (MRMP) является кллючевым вопросом в автоматизации и робототехнике, нацеленным на генерацию коллизионно-свободных маршрутов для нескольких роботов, работающих в общем непрерывном пространстве. Существующие подходы разделяются на дискретные методы, такие как discrete multi-agent path finding (MAPF), и континуум-оптимизационные методы. Дискретные подходы хорошо масштабируются, но применяют примитивную дискретизацию, что приводит к потере качества маршрутов. Наоборот, континуум-оптимизационные методы обеспечивают высокое качество маршрутов, но не могут масштабироваться с увеличением количества роботов из-за курса дименсиональности. Таким образом, существует необходимость в разработке методов, объединяющих выгоды дискретных и континуум-подходов. ## Метод Дискретно-гуиденд диффузия (Discrete-Guided Diffusion, DGD) представляет собой инновационный подход, который интегрирует методы MAPF с констрейнтными моделями диффузии. Основные шаги метода включают: 1. **Декомпозиция проблемы MRMP**: Она разделяется на отдельные подзадачи с конфигурационными пространствами, обладающими свойством выпуклости. 2. **Интеграция MAPF с констрейнтными оптимизационными моделями**: DGD использует MAPF для генерации эффективных начальных маршрутов, а констрейнтные модели диффузии для уточнения траекторий и сжатия пространственно-временных зависимостей. 3. **Улучшение планирования**: Механизм ремонта конфигураций исправляет недопустимые маршруты, обеспечивая их выполнимость. Такая архитектура позволяет DGD эффективно решать MRMP для больших групп роботов, сочетая высокую скорость работы с высоким качеством маршрутов. ## Результаты Исследователи проверили DGD на сложных симуляционных средах с до 100 роботов. Метод показал значительное превосходство по сравнению с лучшими существующими подходами: - **Эффективность**: DGD значительно уменьшает время планирования без потери качества маршрутов. - **Качество маршрутов**: Маршруты, созданные DGD, показали значительную улучшенность по сравнению с дискретными методами. - **Устойчивость**: Механизм ремонта конфигураций обеспечил высокую устойчивость работы DGD в различных сценариях. Эти результаты демонстрируют превосходство DGD в больших количествах роботов и сложных средах. ## Значимость DGD имеет широкие приложения в сферах, требующих эффективного управления несколькими роботами, таких как автоматизированные здания, производственные цехи и поиск-и-спасание операции. Он предоставляет следующие преимущества: - **М

Annotation:

Multi-Robot Motion Planning (MRMP) involves generating collision-free trajectories for multiple robots operating in a shared continuous workspace. While discrete multi-agent path finding (MAPF) methods are broadly adopted due to their scalability, their coarse discretization severely limits trajectory quality. In contrast, continuous optimization-based planners offer higher-quality paths but suffer from the curse of dimensionality, resulting in poor scalability with respect to the number of robo...

ID: 2508.20095v1 cs.RO, cs.AI, cs.LG

arXiv PDF

📄 CODA: Coordinating the Cerebrum and Cerebellum for a Dual-Brain Computer Use Agent with Decoupled Reinforcement Learning

2025-08-29

Авторы:

Zeyi Sun, Yuhang Cao, Jianze Liang, Qiushi Sun, Ziyu Liu, Zhixiong Zhang, Yuhang Zang, Xiaoyi Dong, Kai Chen, Dahua Lin, Jiaqi Wang

## Контекст Графические пользовательские интерфейсы (GUI) широко используются в различных областях, от простых приложений до сложных систем управления научными вычислениями. Однако создание автономных агентов, способных эффективно взаимодействовать с GUI, представляет значительные вызовы. Особенно это актуально в сфере научных вычислений, где необходимо использовать комбинацию долгосрочного планирования и точной исполнительной работы. На данный момент существуют два типа агентов: генералисты, которые проявляют сильные навыки в планировании, но оставляют желать лучшего в исполнении, и специалисты, которые превосходят в исполнении, но слабы в планировании. Фреймворки, комбинирующие эти подходы, либо статичны и неадаптивны, либо недостаточно эффективны в условиях небольшого объема высококачественных данных, который характерен для научных задач. Это решает новая модель CODA, которая предлагает современное решение с помощью двух этапов обучения и декоупленного метода reinforcement learning. ## Метод CODA представляет собой две специальные сети: Cerebrum (планировщик) и Cerebellum (исполнитель). Методология основывается на двух этапах обучения: Specialization и Generalization. В первом этапе, Specialization, каждый агент обучается для конкретного набора задач с помощью декоупленного метода GRPO (Guided Reinforcement Policy Optimization). На втором этапе, Generalization, все успешные траектории из первого этапа собираются в единый датасет, который позволяет дообучить Cerebrum с помощью супервизированного метода. Таким образом, CODA объединяет высокую точность исполнения и гибкость параметрического обучения, что делает ее уникальной в сравнении с другими существующими фреймворками. ## Результаты Проведенные эксперименты на бенчмарке ScienceBoard показали, что CODA превосходит существующие модели по метрикам производительности и точности. Для четырех сложных научных задач, охвативших различные сферы применения, модель CODA показала значительное превосходство перед остальными агентами, включая генералистов и специалистов. Эта модель отличается высокой точностью исполнения, постоянной обучаемостью и устойчивостью к новым условиям. ## Значимость CODA может быть применена в различных научных и инженерных задачах, где требуется как точное исполнение, так и долгосрочное планирование. Особенно она отлично подходит для систем автоматизации, программирования наивных пользователей и управления научными вычислениями. Ее главное преимущество заключается в том, что она объединяет лучшие качества генералистов и специалистов, позволяя ей быть эффективной в различных условиях. Будущие исследования могут ориентироваться на расширение количества задач, улучшение оценочной моде

Annotation:

Autonomous agents for Graphical User Interfaces (GUIs) face significant challenges in specialized domains such as scientific computing, where both long-horizon planning and precise execution are required. Existing approaches suffer from a trade-off: generalist agents excel at planning but perform poorly in execution, while specialized agents demonstrate the opposite weakness. Recent compositional frameworks attempt to bridge this gap by combining a planner and an actor, but they are typically st...

ID: 2508.20096v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 scI2CL: Effectively Integrating Single-cell Multi-omics by Intra- and Inter-omics Contrastive Learning

2025-08-28

Авторы:

Wuchao Liu, Han Peng, Wengen Li, Yichao Zhang, Jihong Guan, Shuigeng Zhou

#### Контекст Одним из ключевых аспектов современных исследований в области биологии и медицины является анализ single-cell multi-omics данных, которые содержат богатый объем информации о состояниях клеток. Эти данные позволяют изучить гетерогенность клеток, развитие заболеваний и основные биологические процессы. Однако анализ таких данных сталкивается с рядом затруднений, включая нехватку эффективных методов для моделирования и интерпретации сложных взаимосвязей между различными омосом данных. Такие проблемы становятся особенно актуальными при изучении динамического процесса развития клеток, где необходимы точные приемлемые решения для оптимальной интеграции и анализа многоомных данных. #### Метод scI2CL — это новая фреймворк, основанная на принципах **intra- и inter-omics contrastive learning**, предназначенная для эффективной интеграции multi-omics данных. Метод использует контрастирующее обучение для выявления интересных зависимостей внутри и между различными омосом данных. Технически, scI2CL включает в себя нейросетевую архитектуру, которая способствует обучению высококачественных многоомных представлений клеток. Эти представления используются для различных задач, таких как кластеризация клеток, определение подтипов клеток и построение траекторий развития клеток. Основной целью фреймворка является повышение точности и детализации анализа сложных multi-omics данных. #### Результаты С помощью scI2CL проведены ряд экспериментов на четырьмя различными наборами данных. Эти эксперименты доказали, что фреймворк превосходит существующие методы в задачах кластеризации клеток, субтипизации клеток и построения траекторий развития. Например, в задаче кластеризации, scI2CL показал лучшие результаты по сравнению с восьми современными подходами на нескольких реальных наборах данных. В задаче подтипизации, scI2CL удалось выделить три новых подпроцесса развития моноцитов, которые не были выявлены ранее. Кроме того, scI2CL удалось точно построить траекторию развития клеток из гемопоэтических стволовых клеток до зрелых Memory B-клеток, что не достигалось ни одним из предыдущих методов. Эти результаты указывают на высокую точность и способность scI2CL работать с самыми сложными задачами. #### Значимость scI2CL может применяться в различных областях, включая геномику, гетогенность клеток и исследования биологических процессов. Его основное преимущество заключается в том, что он позволяет эффективно объединять и анализировать разнообразные multi-omics данные, обнаруживая зависимости и характеристики, которые были бы недоступны при использовании отдельных омосов. Этот подход может привести

Annotation:

Single-cell multi-omics data contain huge information of cellular states, and analyzing these data can reveal valuable insights into cellular heterogeneity, diseases, and biological processes. However, as cell differentiation \& development is a continuous and dynamic process, it remains challenging to computationally model and infer cell interaction patterns based on single-cell multi-omics data. This paper presents scI2CL, a new single-cell multi-omics fusion framework based on intra- and inte...

ID: 2508.18304v1 q-bio.GN, cs.AI, cs.LG, q-bio.CB

arXiv PDF

📄 Does Calibration Affect Human Actions?

2025-08-28

Авторы:

Meir Nizri, Amos Azaria, Chirag Gupta, Noam Hazon

## Контекст Калибровка в машинном обучении широко используется для повышения надежности и доверия к классификаторам. Однако многие из исследований, посвященных этой теме, фокусировались на технических аспектах калибровки, оставив недостаточно исследованым вопрос о том, насколько калибровка влияет на поведение неэкспертных пользователей, которые полагаются на модели для принятия решений. В нашем исследовании мы рассматриваем этот аспект, оценивая влияние калибровки на уровень доверия к модели и на соответствие решений пользователей рекомендациям модели. Мы используем Human-Computer-Interaction (HCI) эксперимент, чтобы изучить эти вопросы и предлагаем дополнительный подход к калибровке, основанный на теории прогнозов (prospect theory) из теории экономического поведения. ## Метод Мы проводим эксперимент с участием неэкспертных пользователей, которые принимают решения на основе предсказаний модели, калиброванной и некалиброванной. В эксперименте участники получают задачи, в которых им необходимо выбирать оптимальные действия на основе прогнозов модели. Мы измеряем (i) уровень доверия к модели, (ii) корреляцию между решениями пользователей и предсказаниями модели, и (iii) на субъективное достоверность предсказаний. Для изучения влияния прогнозов на решения мы предлагаем стратегию, основанную на Kahneman-Tversky prospect theory, и изучаем, как она влияет на доверие и логику принятия решений. ## Результаты Наши экспериментальные результаты показывают, что калибровка в изолированном виде недостаточна для повышения доверия к модели. Хотя калибровка увеличивает корреляцию между решениями пользователей и модельными предсказаниями, этот эффект не влечет за собой увеличение уровня доверия к модели. Это может быть объяснено тем, что участники эксперимента не всегда понимают или не учитывают характеристики модели в своих решениях. Однако коррекция по prospect theory приводит к значительному повышению корреляции решений с предсказаниями, что добирает доверие к модели. Тем не менее, тесты показывают, что уровень доверия не зависит от того, какая коррекция используется. ## Значимость Наши результаты указывают на критическую роль коррекций, основанных на прогнозах, для улучшения соответствия решений пользователей машинным предсказаниям. Эти результаты могут быть применены в сферах, где необходимо улучшить взаимодействие пользователей с машинными системами, таких как роботы, диагностика, финансы или транспорт. Благодаря повышению корреляции решений с модельными предсказаниями, модели становятся более эффективными в помощи пользователям при различных задачах. Наш подход также подчеркивает важность рассмотрения поведенческих факторов при разработке и калибровке

Annotation:

Calibration has been proposed as a way to enhance the reliability and adoption of machine learning classifiers. We study a particular aspect of this proposal: how does calibrating a classification model affect the decisions made by non-expert humans consuming the model's predictions? We perform a Human-Computer-Interaction (HCI) experiment to ascertain the effect of calibration on (i) trust in the model, and (ii) the correlation between decisions and predictions. We also propose further correcti...

ID: 2508.18317v1 cs.HC, cs.AI, cs.LG

arXiv PDF

📄 Vocoder-Projected Feature Discriminator

2025-08-28

Авторы:

Takuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, Yuto Kondo

#### Контекст Текстовые распознавания речи (TTS) и голосовые преобразования (VC) широко используются в сфере искусственного интеллекта для генерирования речи. Основной задачей в этих областях является получение качественных аудио сигналов из текстовых данных. Одним из ключевых элементов этих процессов являются акустические признаки, такие как мел-спектрограммы, которые легко обучаются и требуют меньшего объема ресурсов. Однако при преобразовании этих признаков в аудио сигналы через вокодер возникают значительные затраты времени и памяти, особенно при использовании методов, таких как диффузионное обучение. Эта проблема влияет на эффективность и экономичность реализации TTS и VC. Мы предлагаем новую модель, которая уменьшает эти затраты, сохраняя высокое качество генерируемых аудио сигналов. #### Метод Мы предлагаем **Vocoder-Projected Feature Discriminator (VPFD)** — новую архитектуру, использующую вокодер для проекции признаков на аудио сигналы. Метод основывается на двух основных компонентах: вокодер-проектор и искусственной нейронной сети с адверсарным обучением. Вокодер-проектор преобразует мел-спектрограммы в временной сигнал с помощью одного этапа увеличения разрешения. Это позволяет эффективно применять адверсарный тренинг, не требуя значительного времени и памяти. Модель обучается с помощью бинарного адверсарного тренинга, где дискриминатор сравнивает генерируемый сигнал с реальным. Это приводит к уменьшению времени обучения и потребления памяти. #### Результаты Мы провели эксперименты на различных данных, включая диффузионное обучение в VC. Наши результаты показали, что VPFD демонстрирует высокое качество генерируемых аудио сигналов, сравнимое с дискриминаторами, работающими непосредственно с волновыми сигналами. Однако VPFD гораздо эффективнее по ресурсам: обучение стало быстрее в 9.6 раз, а потребление памяти уменьшилось в 11.4 раз в сравнении с традиционными методами. Эти результаты доказывают эффективность и экономичность нашего подхода. #### Значимость Метод VPFD может быть применен в различных областях, таких как текстовые распознавания речи, голосовые преобразования, синтез речи и музыкальная генерация. Он обеспечивает высокое качество генерируемых сигналов с значительной экономией ресурсов. Это может привести к более эффективной реализации TTS и VC в ситуациях, где ресурсы ограничены. Будущие исследования будут сфокусированы на расширении возможностей VPFD для других типов акустических признаков и улучшении его парамет

Annotation:

In text-to-speech (TTS) and voice conversion (VC), acoustic features, such as mel spectrograms, are typically used as synthesis or conversion targets owing to their compactness and ease of learning. However, because the ultimate goal is to generate high-quality waveforms, employing a vocoder to convert these features into waveforms and applying adversarial training in the time domain is reasonable. Nevertheless, upsampling the waveform introduces significant time and memory overheads. To address...

ID: 2508.17874v2 cs.SD, cs.AI, cs.LG, eess.AS, stat.ML

arXiv PDF

📄 Mining the Long Tail: A Comparative Study of Data-Centric Criticality Metrics for Robust Offline Reinforcement Learning in Autonomous Motion Planning

2025-08-28

Авторы:

Antonio Guillen-Perez

#### Контекст На сегодняшний день, Offline Reinforcement Learning (RL) является важной методикой для обучения автономных агентов, таких как автомобили, с использованием больших наборов реальных данных. Однако в этих данных существует чрезвычайная несбалансированность: большинство сценариев (например, плавное вождение по трассе) встречается зачастую, в то время как редкие сценарии (например, столкновения или неожиданные обстоятельства) редко встречаются. Этот дисбаланс приводит к появлению слабых и небезопасных политик при использовании стандартных методов равномерной выборки данных. В данной работе мы адресуем эту проблему, осуществляя систематическое сравнительное исследование подходов к данной проблеме, нацеленных на фокусировку обучения на самых "информативных" сценариях. #### Метод Мы рассмотрели шесть различных стратегий взвешивания данных, разделенных на три класса: те, которые основываются на логических правилах (heuristic-based), те, которые основываются на неуверенности модели (uncertainty-based), и те, которые основываются на поведении агента (behavior-based). Для каждого класса мы определили конкретные метрики для оценки "критичности" данных в разных слоях анализа: на уровне отдельных шагов и в целом на уровне сценария. Используя семь агентов, обученных с использованием Conservative Q-Learning (CQL), мы проводили эксперименты в хорошо проверенной симуляционной среде Waymax. Мы также использовали архитектуру с агрегированием внимания, которая сочетает в себе возможность учитывать детали в индивидуальных моментах времени, а также контекст в целом сценарии. #### Результаты Использование всех стратегий взвешивания данных приводило к значительным улучшениям по сравнению с базовым методом равномерной выборки. Особенно заметные были результаты использования неуверенности модели в качестве признака критичности: этот подход привел к снижению частоты столкновений в почти три раза, с 16,0% до 5,5%. Было также выявлено конфликтное соотношение: стратегии, основанные на взвешивании на уровне отдельных моментов времени, демонстрировали лучший результат в терминах реактивной безопасности, тогда как стратегии уровня сценария давали лучшие результаты в длинных горизонтах планирования. #### Значимость Наши результаты продемонстрировали, что интеллектуальная, неравномерная выборка данных является ключевым компонентом для создания безопасных и надежных автономных агентов. Этот подход имеет широкие применения в области автономного вождения, благодаря своей способности адаптироваться к реальной сложности вождения. Также, наши результаты могут быть использованы для улучшения обучения в других задачах, где име

Annotation:

Offline Reinforcement Learning (RL) presents a promising paradigm for training autonomous vehicle (AV) planning policies from large-scale, real-world driving logs. However, the extreme data imbalance in these logs, where mundane scenarios vastly outnumber rare "long-tail" events, leads to brittle and unsafe policies when using standard uniform data sampling. In this work, we address this challenge through a systematic, large-scale comparative study of data curation strategies designed to focus t...

ID: 2508.18397v1 cs.RO, cs.AI, cs.LG

arXiv PDF

📄 SwiftF0: Fast and Accurate Monophonic Pitch Detection

2025-08-28

Авторы:

Lars Nieradzik

## Контекст Задача монофонической оценки пичами (F0-estimation) является ключевой в области аудиопроцессинга, особенно при работе в шумных условиях. Несмотря на развитие современных алгоритмов, достижение высокой точности в реальном времени на ресурс-ограниченных устройствах остается вызовом. Эта проблема усложняется дополнительно тем, что доступ к идеально точным значениям пичами в речевых и музыкальных данных часто ограничивается аппроксимативными или алгоритмическими оценками. Данная работа нацелена на развитие решения, которое обеспечивает высокую точность, широкую область применения и эффективность в реальном времени. ## Метод SwiftF0 – это нейронная модель, разработанная с учетом требований к высокой точности, эффективности и универсальности. Она обучается на разнообразных данных, включая речь, музыку и синтетически сгенерированные звуки. Использование разнообразных техник аугментации данных позволяет модели достичь высокой общеуниверсальности и подавлять проблему переобучения. Архитектура модели оптимизирована для минимизации количества параметров и ускорения вычислений, чтобы обеспечить реальное время исполнения даже на небольших устройствах. ## Результаты Были проведены многочисленные эксперименты для оценки точности и эффективности SwiftF0. Модель была протестирована на множестве звуковых корпусов, включая речь и музыку, и показала стабильную высокую точность в разных шумовых условиях. Например, на 10 дБ SNR, SwiftF0 достигла гармонического мера (HM) 91.80%, что значительно превосходит соревнования, такие как CREPE. Также был проведен анализ времени выполнения, показав, что SwiftF0 работает примерно 42 раз быстрее CREPE на CPU. ## Значимость SwiftF0 открывает новые возможности для применения моделей оценки пичами в реальном времени, например, в распознавании речи, устройствах с ограниченными ресурсами и виртуальных инструментах. Его высокая точность и эффективность позволяют использовать его в различных сценариях, включая мобильные приложения и ИИ для музыкального создания. Благодаря AudioCommons и SpeechSynth, данная работа также вносит вклад в развитие открытых ресурсов для комьюнити. ## Выводы SwiftF0 достигает нового состояния искусства в монофонической оценке пичами, демонстрируя свою эффективность и универсальность. Будущие работы будут сфокусированы на расширении модели для работы в смешанных акустических условиях и её интеграции в более широкие аудиопроцессинговые пайплайны.

Annotation:

Accurate and real-time monophonic pitch estimation in noisy conditions, particularly on resource-constrained devices, remains an open challenge in audio processing. We present \emph{SwiftF0}, a novel, lightweight neural model that sets a new state-of-the-art for monophonic pitch estimation. Through training on diverse speech, music, and synthetic datasets with extensive data augmentation, SwiftF0 achieves robust generalization across acoustic domains while maintaining computational efficiency. S...

ID: 2508.18440v1 cs.SD, cs.AI, cs.LG, eess.AS

arXiv PDF

📄 Vectorized Attention with Learnable Encoding for Quantum Transformer

2025-08-28

Авторы:

Ziqing Guo, Ziwen Pan, Alex Khan, Jan Balewski

## Контекст Одним из наиболее актуальных направлений в современной информатике является интеграция квантовых вычислений с традиционными моделями машинного обучения. Квантовые трансформаторы (QT) предлагают возможность заменить классические самоп paуживающиеся аттенционные механизмы на квантовые симуляции, подходящие для вычислений в громадных пространствах Хильберта. Однако, существующие QT в основном полагаются на важные параметрические квантовые схемы (PQCs), которые очень чувствительны к шумам в квантовых устройствах (QPU). Этот факт существенно снижает эффективность и надежность таких моделей. Необходимая методика, которая могла бы уменьшить эту чувствительность и повысить эффективность квантовых трансформаторов, до сих пор остается недостаточно развита. ## Метод Предлагаемая модель Vectorized Quantum Transformer (VQT) представляет собой новую архитектуру квантовых трансформаторов, которая уменьшает эффект квантового шума и улучшает общую эффективность. Методом решения становится симуляция векторизованных квантовых блоков (Vectorized Quantum Block Encoding), которая позволяет вложить классические данные в пространство Хильберта с использованием квантовых операций. Ключевым элементом является векторизованный нелинейный квантовый кодировщик (Vectorized Nonlinear Quantum Encoder), который обеспечивает эффективное обучение и высокую точность. Эта модель также включает в себя методы градиентно-бесплатных схем симуляции (Gradient-Free Quantum Circuit Simulation), что позволяет снизить классический объем вычислений и повысить надежность. ## Результаты В ходе экспериментальных исследований была проведена сравнительная оценка точности VQT на двух квантовых устройствах: IBM и IonQ. Модель показала высокую точность в задачах естественного языка (natural language processing) при работе на стадии виртуальных квантовых процессоров IBM и высокоточном Kingston QPU. Для сравнения QCS (Quantum Circuit Simulation), результаты VQT были сравнены с существующими квантовыми моделями, и демонстрируют существенные улучшения в эффективности вычислений и снижении шума. ## Значимость VQT представляет собой новую архитектуру, предназначенную для использования в квантовых системах для машинного обучения. Она предоставляет высокую точность в задачах NLP и особенную подходит для квантовых устройств с низким шумом. VQT может использоваться в приложениях в сферах робототехники, химии, финансов, где требуется высокая производительность и точность. Эта модель также открывает пути для будущих исследований в области квантовых методов машинного обучения и их применения в реальных ситуациях. ## Выводы В результате, VQT представляет собой

Annotation:

Vectorized quantum block encoding provides a way to embed classical data into Hilbert space, offering a pathway for quantum models, such as Quantum Transformers (QT), that replace classical self-attention with quantum circuit simulations to operate more efficiently. Current QTs rely on deep parameterized quantum circuits (PQCs), rendering them vulnerable to QPU noise, and thus hindering their practical performance. In this paper, we propose the Vectorized Quantum Transformer (VQT), a model that ...

ID: 2508.18464v1 quant-ph, cs.AI, cs.LG

arXiv PDF

1
2
139
140
141
142
143
168
169

Показано 1401 - 1410 из 1687 записей